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o 内 容 全 面 : 将 Web 技 术 、 采 集 技术 、 合 规 性 技术 、 大 数据 挖掘 技术 有 机 结合 ， 构 成 系统 的 知识 体系 
o 技术 完整 : 涵盖 普通 肥 虫 、 动 态 公 虫 、 主 题 公 虫 、Deep Web 有 把 虫 以 及 微 博 数据 采集 

o 案例 典型 : 提供 27 个 与 假 虫 技术 和 大 数据 挖掘 应 用 相关 的 案例 和 Python 程序 
o 配套 完善 : 提供 教学 大 纲 、 教 学 课件 、 程 序 源码 、 教 学 进度 表 ， 并 对 主要 知识 点 进行 了 视频 讲解 | 视频 讲解 
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本 书 围绕 大 数据 采集 ,对 采集 技术 的 相关 基础 ,技术 原理 ,Python 实现 技术 .大 数据 挖掘 与 应 用 方 
法 进行 了 系统 介绍 。 书 中 全 面 、 完 整地 办 六 了 各 种 类 型 的 网 络 息 虫 及 相关 的 信息 处 理 挖 所 技术 ,并 提 
供 了 27 个 与 息 虫 技术 和 应 用 相关 的 Python 程序 。 全 书 共 分 为 四 大 部 分 , 即 概述 .基础 篇 、 技 术 与 实现 
篇 ,大 数据 挖掘 与 应 用 篇 。 第 一 部 分 是 概述 ,首先 指出 了 利用 Python 采集 互联 网 大 数据 的 重要 性 ,介绍 
了 相关 技术 研究 .技术 体系 .Python 有 息 虫 采集 技术 的 合 规 性 及 应 用 现状 等 ; 第 二 部 分 是 基础 篇 ,包括 
Web 服务 器 的 应 用 架构 以 及 HTTP、Robots、.HTML ,页 面 编码 等 相关 协议 和 规范 ; 第 三 部 分 是 技术 与 
实现 篇 ,全 面 介 绍 了 普通 网 络 息 虫 技 术 .动态 页 面 采 集 方 法 .主题 怜 虫 技术 .Deep Web 爬虫 . 微 博信 息 采 
集 、Web 信息 提取 以 及 反 讨 虫 技术 等 ,内 容 涵盖 了 各 种 爬虫 技术 实现 方法 及 Python 例子 ; 第 四 部 分 是 
大 数据 挖掘 与 应 用 篇 ,介绍 了 用 于 疏 虫 应 用 中 的 典型 大 数据 处 理 与 挖掘 技术 以 及 Web 大 数据 采集 的 常 
见 应 用 模式 ,并 以 新 闻 采 集 与 分 析 、SQL 注 和 人 在线 检测 为 例 介 绍 了 Python 疏 虫 应 用 构建 方法 ,将 本 书 
介绍 的 一 些 关 键 技 术 .模型 和 工具 贯穿 在 一 起 。 

本 书 可 以 作为 高 等 院 校 大 数据 .计算 机 、 信 息 以 及 经 管 、 金 融 等 相关 专业 的 教材 ,也 可 以 作为 大 数 
据 .计算 机 、 信 息 以 及 经 管 .金融 等 领域 研究 人 员 和 专业 技术 人 员 的 参考 书 。 
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互联 网 数据 具有 典型 的 大 数据 特征 , 即 数 据 量 巨大 .数据 类 型 多 样 化 .数据 来 源 
丰 军 ,并 且 随 看 “互联 网 + ”国家 战略 的 推进 ,互联 网 大 数据 的 应 用 价值 变 得 多 样 化 。 
因此 ,互联 网 大 数据 成 为 大 数据 技术 教学 和 人 研究 应 用 的 重要 数据 源 。 

在 这 种 背景 下 ,互联 网 大 数据 采集 扩 术 成 为 许多 人 迫切 需要 营 握 的 技术 ,本 书 承 
是 为 了 适应 这 种 需求 而 编写 的 ,同时 本 书 也 是 作者 及 其 科研 团队 十 多 年 来 教学 和 科 
研 实践 经 验 的 总 结 。 作 者 及 其 科研 团队 长 期 从 事 互联 网 内 容 分 析 挖 据 、 网 络 与 情 .大 
数据 .信息 内 容 安全 技术 和 应 用 方面 的 科研 工作 ,在 包括 国家 目 然 科学 基金 项 目 在 内 
的 各 头 科研 项 目 文 择 下 ,对 互联 网 信息 获取 和 处 理 方法 开展 了 大 量 人 研究 ,积累 了 一 是 
的 经 验 和 成 末 , 洱 兰 论 文 、 发 明 专 利和 软件 著作 权 等 ,作者 强烈 布 望 把 科 俩 工作 中 的 

作者 从 2011 年 开始 先后 为 复旦 大 学 信息 安全 专业 的 本 科 生 、 人 研究 生 开 设 了 信 
县 和 内容 安全 交大 数据 安全 ”等 诛 程 ,经 过 多 年 的 教学 实践 ,了 解 了 学 生 的 学 习 需 求 , 积 
景 了 较为 充足 的 关于 互联 网 大 数据 采集 挖 据 技 术 的 讲义 和 系 材 。 作 者 于 2017 年 出 
版 了 《互联 网 大 数据 处 理 技术 与 应 用 ) 一 书 , 两 年 来 经 过 在 不 同 场合 下 与 学 生 、 读 者 和 
同行 的 交流 ,体会 到 互联 网 大 数据 采集 技术 在 大 数据 人 研究 和 教学 中 的 重要 性 ,因此 也 
迫切 需要 对 大 数据 采集 技术 进行 深信 细 化 ,整理 相关 技术 原理 和 实现 技术 。 

本 书 以 互联 网 大 数据 采集 为 主题 ,介绍 相关 技术 基础 .大 数据 采集 技术 .大 数据 
挖掘 及 应 用 技术 。 在 内 容 安排 上 ,本 书 充分 考虑 了 知识 体系 的 完整 性 和 独立 性 , 涵 兰 
Web 应 用 架构 搁 术 、Web 页 面 及 相关 技术 、 各 种 爬虫 来 集 技术 、Web 信息 提取 技术 、 
大 数据 处 理 写 挖掘 以 及 应 用 方式 ; 在 息 虫 技术 上 ,涵盖 了 各 种 不 同类 型 的 息 虫 ,包括 
普通 扑 虫 动态 候 虫 、 主 题 息 虫 、.Deep Web 爬虫 以 及 微 博 爬 虫 ; 在 应 用 方面 ,以 两 种 
典型 的 Web 网 站 信息 采集 与 处 理 为 例 , 介 绍 了 把 虫 技术 的 应 用 模式 与 Python 实现 
让 法 。 

本 书 作 为 一 本 产 学 兼顾 的 教材 ,具有 如 下 特色 : 


(1 ) Python 恺 虫 大 数据 采集 与 挖掘 - 微 课 视 频 版 
CN 


(1) 以 互联 网 大 数据 采集 技术 为 中 心 ,将 Web 应 用 技术 、 各 种 页 面 采 集 的 共性 技 
术 与 特有 技术 .大 数据 处 理 与 挖掘 以 及 疏 虫 合 规 性 等 相关 技术 有 机 地 结合 在 一 起 , 涉 
及 当前 互联 网 Web 空间 的 典型 应 用 ,构成 完整 的 大 数据 采集 技术 和 应 用 的 知识 
体系 。 

(2) 在 互联 网 大 数据 的 采集 技术 中 ,完整 系统 地 涵盖 了 普通 爬虫 、 动 态 疏 虫 、 主 
题 候 虫 .Deep Web 疏 虫 以 及 微 博 数据 采集 , 既 强调 爬虫 抓 取 数据 的 功能 ,也 凸显 疏 虫 
作为 Web 应 用 安全 监测 的 主要 技术 ,有 利于 读者 全 面 理解 网 络 息 虫 大 数据 技术 及 其 
应 用 。 

(3) 秉承 " 授 人 以 鱼 不 如 授 人 以 渔 ? 的 总 体 思路 ,本 书 理 论 与 实践 相 结合 , 书 中 既 
有 相关 技术 原理 的 介绍 ,也 包含 了 大 量 的 Python 实现 技术 .开源 架构 等 方面 的 介绍 ， 
提供 了 27 个 与 疏 虫 技术 和 应 用 相关 的 Python 程序 ,使 得 读者 既 能 理解 技术 问题 又 


能 动手 实践 。 
本 书 分 为 四 大 部 分 , 共 12 革 , 涵 畜 互 联网 大 数据 采集 的 基础 ,技术 和 应 用 ,各 草 
的 内 容 安 排 如 下 : 


第 一 部 分 概述 ,包括 第 1 草 。 

第 1 章 对 大 数据 采集 的 重要 性 .技术 体系 .应 用 现状 、 合 规 性 以 及 技术 发 展 进行 
了 概述 。 

第 二 部 分 基础 篇 ,包括 第 2、3 章 。 

第 2 章 介 绍 了 Web 页 面 信息 提取 中 的 主要 基础 技术 和 方法 ,包括 HTML 语言 
规范 .页 面 编码 体系 与 规范 ,以 及 广泛 用 于 Web 页 面 简单 信息 提取 的 正则 表达 式 。 

第 3 章 对 Web 应 用 架构 技术 进行 了 介绍 ,包括 Web 服务 器 应 用 架构 HTTP 协 
议 .状态 保持 技术 、Robots 协议 等 与 候 虫 密切 相关 的 技术 。 

第 三 部 分 技术 与 实现 篇 ,包括 第 4 一 10 章 。 

第 4 章 对 普通 爬虫 页 面 采 集 技 术 进 行 了 介绍 ,包括 Web 服务 器 连接 器 .爬虫 策 
略 、 超 链接 处 理 以 及 Python 的 实现 方法 等 。 

第 5 章 介 绍 了 动态 爬虫 的 相关 技术 ,包括 动态 页 面 内 容 的 生成 与 交互 .动态 页面 
采集 的 香干 种 典型 方法 和 Python 实现 技术 。 

第 6 草 介 绍 了 从 Web 页 面 提取 信息 所 需要 的 技术 ,介绍 了 技术 原理 和 典型 的 开 
源 技术 ,给 出 了 一 些 实例 。 

第 7 章 介 绍 了 主题 候 虫 技术 及 实现 方法 ,涉及 主题 仆 虫 的 技术 体系 、 主 题 表 示 和 


建 模 .主题 相似 度 计 算 等 。 


第 8 草 是 关于 Deep Web 的 数据 采集 技术 及 实现 。 
第 9 蕴 是 关于 微 博 信息 的 采集 方法 及 实现 ,主要 包括 通过 API 获取 微 博 信息 和 


通过 爬虫 技术 获取 微 博 信息 两 种 方法 。 


第 10 划 介 绍 了 反扑 忠 的 第 用 技术 ,同时 也 介绍 了 针对 这 些 反 息 虫 拉 术 的 一 些 主 


要 应 对 措施 。 


的 预 处 理 ,文本 分 类 


第 四 部 分 大 数据 挖掘 与 应 用 篇 ,包括 第 11、12 章 。 

第 11 章 介 绍 了 大 数据 采集 应 用 以 及 主题 候 虫 中 需要 使 用 的 部 分 技术 ,包括 文本 
` 主 题 建 模 、 大 数据 可 视 化 技术 以 及 一 些 开源 工具 等 。 

第 12 章 针对 两 种 典型 的 大 数据 采集 技术 应 用 案例 进行 了 完整 的 介绍 。 

这 些 章 节 的 知识 点 之 间 的 依赖 关系 如 下 图 所 示 , 其 中 , 虚 框 中 的 第 4 一 9 章 是 各 


种 典型 的 候 虫 采集 技术 ,第 1~3 章 是 相关 技术 基础 。 读 者 可 以 根据 自己 的 基础 选择 
合适 的 学 习 路 线 。 


| 


第 1 章 


全 书 由 置 剑 平 负 贡 内 容 安 排 \ 统 稳 , 由 互联 网 大 数据 处 理 技术 和 应 用 人 研究 领域 的 


一 线 人 员 参 与 编写 。 段 江 娇 参与 编写 了 第 1、4、5 革 , 雇 含 月 编写 了 第 2 章 的 部 分 内 
容 , 志 元 编写 了 本 书 部 分 例子 的 程序 及 相关 文字 说 明 , 表 杨 实现 了 SQL 注入 的 爬虫 
在 线 检 测 ,其 他 部 分 由 曾 剑 平 编写 , 曾 罕 对 全 书 进行 了 校对 。 清 华 大 学 出 版 社 的 编辑 
们 为 本 书 的 出 版 和 编辑 、 校 对 花 肌 了 很 多 心思 ; 此 外 ,在 本 书 的 编写 过 程 中 参考 和 引 
用 了 许多 作者 发 表 的 各 种 论文 .技术 报告 , 均 已 在 参考 文献 中 列 出 ,在 此 一 并 表示 衷 
心 的 感 吝 。 需 要 特别 提 到 的 是 ,为 了 便于 读者 理解 相关 技术 , 书 中 选择 硅 十 互联 网 网 
站 页 面 玉 集 作 为 实例 ,特别 回 这 些 网 站 表示 感 调 。 


注 : 本 书 提供 300 分 钟 的 视频 讲解 ,扫描 书 中 相关 位 置 的 二 维 码 可 以 在 线 观看 、 


NW) python 拒 虫 大 数据 采集 与 挖掘 - 微 课 视 频 版 
FT 


学 习 ; 本 书 还 提供 教学 大 纲 、 教 学 课件 ,程序 源码 、 教 宁 进 度 表 等 配套 资源 ,扫描 封底 
的 二 维 码 可 以 下 载 。 

互联 网 大 数据 采集 技术 仍 在 不 断 发 展 当 中 ,本 书 在 内 容 选 择 及 编写 上 从 深度 和 
广度 做 了 精心 的 安排 。 由 于 时 间 仓 促 以 及 作者 的 学 识 水 平 限 制 , 书 中 难免 存在 不 足 
之 处 和 芍 忽 ,恳请 旋 者 不 将 批评 指正 ,以 利于 再 厂 修 订 完 善 。 


作 者 
2019 年 10 月 
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第 二 


大 数据 采集 概述 


本 革 以 互联 网 大 数据 为 背景 ,介绍 了 大 数据 采集 技术 中 的 网 络 息 虫 ,指出 了 网 络 
爬虫 及 其 Python 实现 的 重要 性 ,归纳 分 析 了 候 忠 技术 的 研究 及 应 用 现状 , 列 出 了 钨 
虫 扩 术 的 春 干 典型 应 用 场景 , 春 重 对 爬虫 大 数据 来 集 技 术 的 技术 体系 构成 及 相关 拉 
术 组 成 进行 了 详细 摘 述 ,分 析 了 爬虫 大 数据 采集 的 法 律 导 撤 术 边 界 ,最 后 对 爬虫 大 数 
据 米 集 技术 进行 了 展望 。 


1.1 互联 网 大 数据 与 采集 


互联 网 大 数据 在 大 数据 技术 人 研究 和 应 用 中 具有 午 要 位 置 ,由 于 互联 网 大 数据 的 
数据 来 源 .数据 类 型 和 请 义 更 加 丰 昌 ,数据 的 开放 性 更 好 ,数据 的 流动 性 更 大 ,并 且 随 
看 “互联 网 + ”国家 战略 的 实施 ,各 个 行业 与 互联 网 之 间 的 联系 越 来 越 密 切 , 互 联网 大 
数据 的 价值 体现 也 就 更 加 广 沁 和 多 样 化 。 基 于 这 样 的 现实 状况 和 未 来 发 展 ,本 书 将 
互联 网 大 数据 及 集 作为 重点 。 


1.1.1 互联 网 大 数据 来 源 


广义 的 互联 网 大 数据 既 包 括 各 种 互联 网 Web 应 用 中 不 断 累 积 产 生出 来 的 数据 ， 
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也 包括 Web 后 台 的 传统 业务 处 理 系统 产生 的 数据 。 狭 义 的 互联 网 大 数据 主要 指 基 
于 互联 网 Web 应 用 所 产生 的 数据 ,例如 新 闻 信 息 、 微 博 、 网 络 论 坛 帖 子 . 电 丙 评论 等 。 
在 互联 网 大 数据 研究 和 应 用 中 ,和 凋 见 的 数据 来 源 有 以 下 类 型 。 


1. 社交 媒体 


微 博 .网络 论坛 等 各 种 社交 平台 已 经 成 为 人 们 聊天 、 分 享 信息 .交换 意见 的 重要 


合 , 不 断 地 产生 各 种 即时 信息 (User Generated Content,UGC)。 这 些 数据 体现 了 
人 们 的 观点 .情绪 .行为 ,以 及 群体 关注 的 热点 .话题 等 许多 信息 。 这 些 信 息 已 经 逐步 
币 越 来 越 多 的 机 构 重 视 , 用 来 进一步 挖掘 分 机 ,为 提升 客户 服务 .产品 质量 提供 准确 


2. 社交 网 络 


社交 网 络 主要 来 源 于 社交 平台 , 它 更 侧重 于 人 际 关 系数 据 , 而 社交 媒体 更 侧重 于 
内 容 , 也 有 很 多 文献 资料 并 不 太 区 分 社 芭 网 络 和 社交 媒体 。 闭 名 学 痢 尼 十 拉 斯 ， 殉 
里 斯 塔 基 斯 (Nicholas A. Christakis) 和 人 詹姆斯。 宦 轩 (James H. Fowler) 拟 写 了 《大 
连接 ) 一 书 , 认 为 人 与 人 之 间 , 甚 至 人 与 物 之 间 、 人 与 信息 之 间 、 人 与 目 然 之 间 , 部 可 以 
形成 连接 。 现 在 ,人 类 社会 进 个 大 连接 时 代 , 来 目 于 社交 网 络 的 连接 数据 已 经 
锌 广泛 应 用 ,成 为 互联 网 大 数据 中 的 重要 组 成 部 分 。 


3. 自 科 知识 库 


大 数据 技术 应 用 是 一 种 基于 经 验 数 据 的 应 用 ,经 验 数 据 的 质量 、 完 整 性 和 可 得 性 
对 于 大 数据 的 成 功 实 施 非 常 午 要。 但 是 ,经 验 知 识 往往 存在 于 每 个 人 的 大 脑 中 ,其 表 
达 存储 并 不 是 很 容 匈 的 事 。 随 看 互联 网 应 用 的 扩展 ,出 现 了 很 多 百科 知识 库 , 例 如 
百度 百科 、 维 基 百 科 等 。 开 放 式 的 知识 管理 方式 允许 每 个 人 对 知识 的 正确 性 进行 维 
护 , 因 此 出 现 了 一 些 高 质量 的 百科 知识 库 , 对 于 在 大 数据 应 用 中 进行 知识 获取 、 分 析 
和 推理 具有 重要 价值 。 


4. 新 闻 网 站 


新 闻 信 息 是 互联 网 大 数据 男 一 个 午 要 的 组 成 部 分 ,涵盖 社会 新 闻 、 科 技 新 闻 、 国 
味 新 闻 等 。 随 看 新 闻 发 布 机 制 的 创新 ,互联 网 上 新 闻 信 息 发 布 的 及 时 性 提 融 ,一些 个 
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性 化 推送 平台 使 得 新 闻 的 受众 选择 更 加 精准 。 各 类 新 闻 信 息 体现 了 当前 各 个 领域 的 
午 要 事件 以 及 事件 的 演化 过 程 ,因此 为 大 数据 的 动态 性 和 诬 度 分 析 挖 掘 提供 了 很 好 
的 数据 源 和 示例 。 


5, 评论 信息 


股票 评论 .商品 评论 .酒店 评论 .服务 质量 评论 等 许多 评论 信息 在 互联 网 上 广泛 
存在 ,它们 属于 典型 的 短文 本 ,这 类 数据 在 大 数据 分 析 应 用 中 具有 典型 的 代表 性 ,是 
一 种 重要 的 大 数据 。 其 分 析 和 处 理 方法 不 同 于 新 闻 信息 之 类 的 长 文本 ,互联 网 上 的 
各 类 评论 信息 为 相应 的 技术 研究 和 应 用 开发 提供 了 充足 的 数据 。 


6. 位 置 型 信息 


随 看 移动 互联 网 应 用 的 快速 普及 ,人 们 越 来 越 习 惯 于 在 社交 平台 上 进行 签到 ， 
移动 社交 平台 通常 也 记录 了 人 们 移动 的 位 置 和 轨迹 。 这 类 数据 作为 一 种 重要 的 大 
数据 类 型 ,在 大 数据 分 析 应 用 中 具有 较 蜗 价值 ,因此 也 是 值得 关注 的 互联 网 大 数据 
ef 

此 外 还 有 很 多 其 他 类 型 的 互联 网 大 数据 ,这 里 束 不 一 一 列举 了 。 


1.1.2 互联 网 大 数据 的 特征 


对 于 一 般 意 义 上 的 大 数据 而 言 ,特别 是 来 自 于 OLTP( 联 机 事务 处 理 ) 的 大 数据 ， 
通常 认为 其 数据 具有 4V(Volume、Variety、 Value Velocity) .5V(Volume、Velocity、 
Variety、Veracity、Variability ) 或 7V(Volume、Velocity、Vast、Variety、Veracity、 
Value、Visualization) 等 特征 。 但 是 不 管 哪 种 ,一 般 都 把 数据 的 大 容量 .数据 蕴含 的 价 
值 .数据 来 源 的 多 样 化 以 及 数据 处 理 的 快速 化 等 特点 作为 大 数据 的 基本 特征 。 

互联 网 大 数据 除了 有 具备 这 些 基 本 特征 外 ,还 有 一 些 新 特征 ,归纳 起 来 主要 有 互联 
网 大 数据 开放 性 好 、 容 易 采 集 .数据 类 型 丰富 .数据 量 大 ,流动 性 大 、 来 源 多 样 化 、 弱 规 
范 性 . 非 结构 化 数据 多 ,并且 随 着 “互联 网 + ”国家 战略 的 推进 ,互联 网 大 数据 的 价值 
体现 具有 多 样 化 和 广泛 性 。 总 之 ,互联 网 大 数据 具备 大 数据 的 各 种 典型 特征 ,是 进行 
大 数据 相关 教学 .科研 和 应 用 的 重要 数据 来 源 。 

其 特征 具体 说 明 如 下 : 
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1. 大 数据 类 型 和 语义 更 加 丰富 


互联 网 大 数据 的 数据 类 型 除了 传统 的 基本 数据 类 型 以 外 ,还 有 文本 型 . 音 /视频 、 
用 户 标 签 、 地 理 位 置信 息 、 社 交 连 接 数 据 等 。 这 些 数 据 广 沁 存在 于 各 类 互联 网 应 用 
中 ,例如 新 闻 网 站 上 的 新 闻 、 网 络 论坛 中 的 帖子 、 基 于 位 置 服务 系统 (LBS) 中 的 经 第 
度 信息 ,以 及 微 博 中 用 户 关注 所 形成 的 连接 数据 ，。 

这 种 数据 虽然 本 质 上 属于 字符 串 、 整 型 等 基本 数据 类 型 ,但 是 它们 经 过 重新 整合 
已 经 形成 了 其 有 一 定语 义 的 数据 单元 ,例如 从 用 户 评 论文 本 中 可 以 引申 出 用 户 的 情 
感人 格 , 从 用 户 的 轨迹 数据 中 可 以 引申 出 其 活动 规律 ,等 等 。 


2. 数据 的 规范 化 程度 比 OLTP 中 的 数据 要 弱 


蚤 规范 性 的 数据 是 人 们 表达 灵活 性 的 体现 ,因此 具有 很 高 的 研究 价值 ,在 关系 型 
数据 为 主 的 时 代 , 此 类 数据 并 不 多 见 。 由 于 互联 网 数据 的 动态 性 、 交 互 性 部 比较 强 ， 
在 信息 传播 作用 下 ,用户 生 成 的 信息 通 第 也 有 很 大 的 相似 性 。 此 外 ,用 户 生 成 的 信息 
是 可 以 由 用 尸 控 制 的 ,也 就 是 用 户 可 以 在 此 后 进行 修改 、 删 除 。 因 此 ,在 采集 互联 网 
大 数据 时 束 可 能 会 出 现 信 息 内 容 不 一 致 性 的 情 帝 。 

此 外 ,互联 网 应 用 中 对 数据 的 校 验 并 不 是 很 严格 ,甚至 可 能 是 用 户 目 定 义 的 ,这 
种 数据 规范 化 方式 与 OLTP 预先 定义 的 模式 也 完全 不 同 。 典 型 的 是 微 博 中 的 用 户 标 
等 ,每 个 人 可 以 根据 目 己 的 偶 好 设 定 目 己 的 标签 ,两 个 不 同 的 标签 可 能 具有 相同 的 合 
义 ,而 相同 的 标签 对 不 同 用 户 来 说 可 能 有 不 同 的 售 义 。 


3. 数据 的 流动 性 更 大 


在 OLTP 中 ,数据 产生 的 速度 取决 于 业务 组 织 和 规模 ,除了 银行 .电信 等 大 型 的 
联机 系统 外 ,OLTP 数据 流动 性 一 般 并 不 高 ,数据 生成 速度 也 很 有 限 。 但 是 在 互联 网 
环境 下 , 越 来 越 多 的 应 用 由 于 面 对 整 个 互联 网 用 户 群 体 而 使 得 数据 产生 数据 流动 性 
大 大 增强 ,例如 微 博 、.LBS 服务 系统 等 ,这 种 流动 性 主要 体现 在 信息 传播 ` 效 据 在 不 同 
五 点 之 间 的 快速 传递 。 这 种 特点 也 就 决定 了 大 数据 分 析 技 术 要 具备 对 数据 流 的 高 速 
处 理 能 力 ,挖掘 算法 要 能 够 文 持 对 数据 流 的 分 析 , 扩 术 平 台 要 具备 充足 的 并 行 处 理 
能 力 。 
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4. 数据 的 开放 性 更 好 


OLTP 具有 很 强 的 封闭 性 ,但 对 于 互联 网 大 数据 而 言 ,由 于 互联 网 应 用 架构 本 身 
具有 去 中 心 化 的 特点 ,也 就 使 得 各 种 互联 网 应 用 中 的 数据 在 较 大 范围 内 是 公开 的 ,可 
以 自由 获取 。 而 且 由 于 互联 网 应 用 的 开放 性 特点 ,对 于 用 户 的 身份 审查 并 不 太 严 格 ， 
用 户 之 间 进 行 数据 共享 和 自由 分 享 也 就 变 得 更 加 容易 。 


s. 数据 的 来 源 更 加 丰富 


随 看 和 令 能 终端 的 快速 普及 、 通 信和 网 络 的 升级 换代 加 快 、 知 能 技术 和 交互 手段 越 来 
越 丰 蜗 ,互联 网 应 用 程序 形 陈 将 变 得 丰 遇 多 彩 , 也 将 产生 与 以 往 不 同 的 数据 形式 , 例 
如 虚拟 现实 (VR) 拉 术 的 应 用 就 可 能 直接 将 人 的 真实 表情 数 据 、 生 理 数据 记录 下 来 。 
此 外 , 云 计 算 、 物 联网 技术 的 出 现 审 来 了 新 的 服务 模式 ,它们 与 互联 网 的 结合 也 将 极 
大 地 扩大 互联 网 大 数据 来 源 。 多 种 不 同 来 源 的 数据 以 互联 网 为 中 心 进行 融合 ,正本 
合 了 大 数据 的 基本 特征 ,因此 可 以 在 这 个 基础 上 做 更 有 效 的 分 析 和 挖掘 。 


6. 互联 网 大 数据 的 价值 体现 形式 更 加 多 样 化 


随 肴 “互联 网 + ”国家 战略 的 推进 ,互联 网 思维 在 各 个 行业 得 到 运用 ,互联 网 大 数 
据 与 每 个 行业 领域 都 存在 结合 点 ,因此 大 数据 的 价值 体现 也 就 不 会 仅 局 限于 互联 网 
应 用 目 身 。 例 如 互联 网 与 出 租车 的 结合 ,使 得 基于 互联 网 大 数据 的 车 流 预 测 .路 径 规 
划 更 具有 全 局 性 。 

互联 网 大 数据 与 科学 人 研究 结合 在 一 起 也 形成 了 目前 顾 具 特色 的 人 研究 泡 式 。 从 以 
社会 调查 和 试验 为 主要 基础 的 社会 科学 领域 ,逐渐 过 渡 到 以 互联 网 为 背景 来 构建 目 
己 的 数据 源 ,例如 很 多 的 研究 以 微 博 .Twitter 中 的 用 户 行为 数据 为 基础 ,开展 一 些 心 
理 、 情 感 方面 的 人 研究 ,也 凸显 了 互联 网 大 数据 价值 的 多 梓 化 。 在 新 闻 学 .金融 学 . 认 知 
心理 学 法 学 等 众多 领域 , 邵 体 现 了 互联 网 大 数据 与 各 个 学 科 领 域 结合 的 效用 。 


1.2 Python 扑 虫 大 数据 采集 技术 的 重要 性 


Python 有 息 虫 大 数据 采集 技术 的 重要 人 性 可 以 从 大 数据 采集 的 重要 视频 讲解 
性 ,互联 网 大 数据 的 重要 性 以 及 Python 开发 生态 的 重要 性 3 个 方面 来 分 析 。 


Python 疏 虫 大 数据 采集 与 挖掘 - 微 课 视频 版 


1. 大 数据 采集 技术 的 重要 性 


大 数据 人 处理 过 程 通 常 涉及 右 十 个 重要 环 古 ,包括 数据 采集 结构 化 处 理 、 数 据 存 
储 \ 分 析 挖 掘 \、 可 视 化 、 共 对 与 交易 等 。 数 据 及 集 是 整个 过 程 的 开始 ,如 采 没 有 数据 ， 
后 续 的 处 理 环 市 束 巨 法 进行 。 如 果 没 有 真正 的 大 数据 ,后 续 环 廊 的 处 理 拉 术 就 会 退 
化 成 为 当前 已 经 成 熟 的 普通 数据 挖 据 应 用 技术 。 

从 大 数据 的 技术 构 染 来 看 ,大 数据 米 集 处 于 整个 架构 的 底层 ,是 整个 染 构 的 基 
础 。 大 数据 采集 拉 术 性 能 的 好 坏 直 接 影 啊 到 数据 米 集 的 效率 和 数据 的 质量 ,没有 局 
性 能 的 采集 技术 ,大 数据 的 后 续 处 理 和 人 研究 开发 束 无 从 谈 起 。 


2. 互联 网 大 数据 的 重要 性 


互联 网 大 数据 能 满足 大 数据 技术 教学 的 要 求 。 当 前 ,金融 交通、 医疗 等 具体 领 
域 中 的 大 数据 在 研究 和 应 用 时 遇 到 的 主要 问题 有 数据 领域 封 财 、 共 昱 范围 有 限 ` 数 据 
量 少 .静态 数据 俩 多 . 册 乏 动 太 机制、 数据 拓 型 过 于 单一 \ 应 用 价值 很 有 限 等 。 

随 看 互联 网 应 用 的 广 沁 普及 , 越 来 越 多 的 数据 将 出 现在 互联 网 上 。 和 社交 媒体 、 网 
络 论坛 等 网 络 应 用 时 刻 产 生 各 种 用 户 数 据 , 这 些 数 据 反 映 了 了 网络 用 户 的 行为 特征 . 语 
言 特 征 、 群 体 特 征 等 ,具有 很 高 的 研究 和 应 用 价值 。 此 外 ， 互 联网 + ”国家 战略 的 实 
施 将 深刻 影 啊 今 后 很 长 时 间 内 的 社会 发 展 , 越 来 越 多 的 机 构 将 互联 网 作为 与 客户 区 

互 创造 新 业务 模式 的 途径 ,各 领域 的 数据 也 将 会 越 来 越 多 出 现在 互联 网 上 。 因 此 ， 
互联 网 大 数据 在 大 数据 技术 人 研究 .教学 应 用 和 开发 中 的 重要 性 就 非 彰 凸显 ,将 互联 
网 大 数据 作为 大 数据 技术 人 研究 和 应 用 开发 的 一 种 数据 源 是 非 凋 合适 的 ,解决 了 当前 
大 数据 人 研究 应 用 存在 的 无 米 之 炊 的 局 面 。 


3. Python 开发 生态 的 重要 性 


近年 来 ,Python 声言 逐步 成 熟 , 众 多 的 开源 软件 和 搬 件 极 大 地 丰富 了 Python 的 
开发 生态 。 这 些 Python 开源 软件 和 插件 涵盖 科学 计算 、 语 言 处 理 \ 文 本 挖掘 、 图 像 处 
理 等 , 极 大 地 方便 了 开发 人 员 进 行 各 种 开发 ,因此 得 到 了 越 来 越 多 开发 人 员 的 退 摊 。 

Python 已 经 从 各 种 计算 机 编程 语言 中 脱 箱 而 出 ,成 为 一 种 有 前 途 的 语言 和 开发 
环境 ,而 爬虫 系统 作为 一 种 重要 的 互联 网 大 数据 采集 手段 ,系统 的 设计 、 实现 和 构建 
选择 合适 的 语言 将 有 助 于 整个 大 数据 技术 构架 的 集成 化 程度 的 提升 。 因 此 ,选择 
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Python 语言 进行 互联 网 大 数据 采集 技术 的 实现 具有 一 定 实际 意义 和 必要 性 。 
1.3 把 虫 技术 研究 及 应 用 现状 


网 络 息 虫 的 应 用 源 于 20 世纪 90 年 代 的 Google 等 搜索 引 敬 ,和 候 虫 用 于 抓 取 互 联 
网 上 的 Web 页 面 , 再 由 搜索 引擎 进行 索引 和 存储 ,从 而 为 网 民 提 供 信 息 检 索 服 务 。 
在 系统 架构 上 ,网络 爬虫 位 于 搜索 引擎 的 后 台 , 并 未 直接 与 网 民 接 触 , 因 此 在 较 长 的 
时 间 内 并 未 被 广大 开发 人 员 所 关注 ,相应 的 技术 研究 也 很 有 限 。 

图 1-1 是 在 知 网 数据 库 中 检索 “网 络 息 虫 ” 关 键 词 ,并 按照 年 度 统 计 相 关 文 献 数 
量 后 得 到 的 趋势 图 。 该 图 反映 了 从 2002 年 至 今 国 内 对 网 络 息 虫 技术 研究 和 应 用 的 
变化 趋势 ,大体 上 反映 了 和 扑 虫 技术 的 关注 度 。 


< < < 
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图 1-1 网 络 息 虫 技术 的 关注 度 


从 图 中 可 以 看 出 ,2004 年 以 前 该 技术 和 应 用 的 关注 度 几 乎 为 0, 但 2005 年 以 来 
人 们 对 网 络 息 虫 技 术 的 关注 上 度 快 速 上 升 。 进 一 步 分 析 发 现 , 对 网 络 息 虫 技术 及 应 用 
的 关注 度 排名 在 前 面 的 领域 依次 是 计算 机 软件 及 计算 机 应 用 、 互 联网 技术 与 目 动 化 
技术 、 新 闻 与 传媒 、 贸 易 经 济 、 图 书 情报 与 数字 图 书馆 ,企业 经 济 、 日 然 地 理学 和 测绘 
学 ,金融 投资 ,其 中 超过 90%% 的 关注 度 主要 集中 在 前 两 者 ,它们 侧重 于 爬虫 技术 研究 ， 
紧 接 在 后 面 的 是 主要 的 网 络 应 用 领域 ,可 以 看 出 爬虫 技术 的 应 用 领域 很 广泛 。 

疏 虫 是 一 个 实践 性 很 强 的 技术 活 , 因 此 网 络 朴 虫 技术 关注 度 的 变化 趋势 也 从 另 
一 个 角度 反映 了 互联 网 上 运行 的 爬虫 数量 的 增长 速度 。 除 了 为 数 不 多 的 主流 互联 网 
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搜索 引擎 爬虫 外 ,互联 网 上 运行 的 朴 虫 主要 来 目 个 人 、 中 小 型 企业 单位 。 
疏 虫 应 用 的 迅速 普及 得 益 于 大 量 的 网 络 爬 虫 开源 包 或 底层 技术 开源 包 的 出 现 ， 
这 些 开 源 包 使 得 开发 一 个 具体 应 用 的 网 络 爬 虫 采 集 系 统 变 得 容易 很 多 。 但 是 ,也 正 
由 于 这 个 原因 ,高 度 封 装 的 开源 包 使 得 很 少 有 人 愿意 深入 了 解 其 中 的 关键 技术 ,导致 
这 种 途径 生产 出 来 的 候 虫 质量 、 性 能 和 友好 程度 都 受到 很 大 影响 。 其 至 网 络 息 虫 因 
此 被 认为 是 一 个 不 太 “ 优 雅 ” 的 行业 ,当然 这 种 看 法 并 不 正确 ,不 能 被 低 质量 的 个 人 或 
小 型 候 虫 迷惑 而 看 不 清 行业 现状 。 相 反 ,我们 应 当 深 入 分 析 导 致 这 种 问题 的 技术 和 
非 技 术 因 系 ,制定 更 为 完善 的 爬虫 大 数据 采集 规范 或 要 求 。 
目前 , 低 质量 的 个 人 、 小 型 爬虫 存在 的 主要 问题 可 以 归 续 为 以 下 3 个 方面 。 
(1) 不 遵守 Robots 协议 ,连接 一 个 Web 服务 器 之 后 不 检测 虚拟 根 目 录 下 是 否 存 
在 robots. txt 文件 ,也 不 管 文件 里 面 关 于 页 面 访问 许可 列表 的 规定 。 由 于 这 个 协议 
是 一 个 行业 规范 ,忽视 或 不 避 守 这 个 协议 也 就 意味 看 行业 的 发 展会 进入 不 民 状 态 。 


(2) 疏 行 策略 没有 优化 ,一 般 开 源 系统 实现 了 宽度 优先 或 深度 优先 的 策略 ,但 是 
并 没有 对 Web 页 面 的 具体 特征 做 优化 ,例如 Portal 类 型 页 面 的 超 链接 非常 多 ,这 些 
链接 如 果 直 接 进 入 疏 行 任务 ,就 很 容易 对 Web 服务 器 造成 拒绝 服务 攻击 ， 


(3) 许多 有 息 虫 实现 了 多 线程 \ 分 布 式 的 架构 ,这 个 看 似 好 的 软件 架构 技术 对 于 网 
络 爬 虫 来 说 可 能 只 是 "一 厅 情 愿 "。 客 户 痪 架 构 设 计 得 册 好 ,爬行 策略 . 增 量 模式 等 问 
题 没 有 解决 好 ,其 效果 就 相当 于 制造 了 很 多 小 朴 虫 在 服务 表 上 同时 运行 。 这 种 情况 
最 终 导 致 两 败 俱 仿 的 结局 , Web 服务 般 需 要 投入 大 量 的 人 力 \ 物 力 和 资金 进行 候 虫 检 
测 和 阻 断 ,对 于 息 忠 也 一 样 ,因此 最 终 对 Web 服务 条 和 和 采集 数据 的 爬虫 午 不 利 。 


1.4 疏 虫 技术 的 应 用 场景 


网 络 爬 虫 技 术 出 号 于 互联 网 搜索 引 车 ,用 于 从 互联 网 上 可 达 URL 所 指 四 的 Web 
页 面 或 质 源 采集 信息 内 容 。 疏 虫 技术 经 过 较 长 时 间 的 发 展 , 目 前 的 应 用 范围 变 得 越 
来 越 广 。 在 涉及 从 互联 网 上 进行 大 量 页 面 的 目 动 有 来 集 时 基本 上 都 离 不 开 爬 虫 技 术 。 

息 虫 技术 的 应 用 可 以 分 为 两 大 类 ,分 别称 为 来 集 型 候 虫 和 监测 型 候 忠 。 

玉 集 型 候 虫 延续 了 搜索 引擎 息 虫 搁 术 ,是 目前 使 用 最 广泛 的 模式 。 这 种 息 虫 在 
搜索 引擎 息 虫 技术 的 基础 上 对 抓 取 范围 .意图 做 了 不 同 程度 的 限定 ,从 而 产生 一 些 新 
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型 应 用 。 以 下 列举 一 些 该 类 型 爬虫 的 典型 使 用 场景 。 

(1) 互联 网 搜索 引擎 : 朴 虫 技术 是 互联 网 搜索 引擎 系统 的 关键 撤 术 。 不 管 是 通 
用 的 搜索 引擎 ,还 是 垂直 搜索 引擎 系统 ,其 庞大 的 数据 都 是 源 目 于 互联 网 上 各 种 应 用 
中 的 数据 ,通过 爬虫 技术 可 以 对 互联 网 上 的 页 面 信 息 进 行 及 时 、 全 面 的 采集 ,从 而 能 
够 使 搜索 引擎 系统 保持 新 人 鲜 数 据 , 更 好 地 为 用 户 提 供 查 询 服 务 。 

(2) 互联 网 与 情 监测 : 这 是 当前 的 应 用 热点 ,通过 采集 互联 网 上 一 些 特定 网 站 中 的 
页 面 进行 信息 提取 敏感 词 过 滤 、 乔 能 聚 类 分 类 ,主题 检测 、 主 题 聚焦 ,统计 分 析 等 处 理 
之 后 ,给 出 盘 情 态势 研判 的 一 些 分 析 报 告 。 当 前 典型 的 互联 网 与 情 监控 系统 所 能 达到 
的 监测 效果 部 取决 于 其 互联 网 信息 的 获取 能 力 , 包 括 监控 系统 在 Web 页 面 获取 时 的 并 
发 能 力 、 对 毅 态 和 动态 等 不 同类 型 页 面 的 获取 能 力 ` 对 实时 页 面 数据 的 获取 能 力 等 。 

(3) 知识 图 谱 的 构建 :; 知识 图 谐 以 结构 化 的 形式 描述 客观 世界 中 的 概念 、 实 体 及 
其 关系 ,其 构建 需要 大 规模 数据 。 互 联网 空间 中 的 大 量 知 识 库 是 构建 知识 图 谱 的 理 
想 数据 源 。 典 型 的 开放 知识 库 有 Wikidata( 维 基数 据 )、DBpedia、Freebase, 行 业 知识 
库 有 IMDB( 互 联网 电影 资料 库 )、.MusicBrainz( 音 乐 信 息 库 ) 等 。 爬 虫 是 实现 这 些 知 
识 内 容 自 动 采 集 .自动 更 新 的 途径 。 

(4) 社交 媒体 评论 信息 监测 ; 随 看 社交 媒体 在 互联 网 上 的 广泛 应 用 ,出 现 了 大 量 
评论 型 页 面 ,对 这 些 Web 页 面 进行 及 时 完整 的 采集 ,能 够 获取 到 大 量 的 用 户 偏好 、 
用 户 行 为 信息 ,这 是 个 性 化 推荐 、 用 户 行 为 饶 究 和 应 用 的 关键 基础 。 例 如 目前 对 各 种 
电子 商务 网 站 产品 购买 评论 的 目 动 采集 .校园 BBS 页 面 采 集 等 都 属于 这 种 类 型 。 

(5) 学 术 论 文采 集 : 学 术 朴 虫 专门 从 互联 网 中 疏 行 公开 的 学 术 论 文 , 是 构建 学 术 
搜索 系统 的 关键 基础 。 目 前 国内 外 有 许多 类 似 的 搜索 ,例如 Google Scholar、 
Microsoft Academic Search、CiteSeerX 以 及 百度 学 术 等 。 此 类 有 把 虫 专门 获取 PDF、 
Word、PostScript 以 及 压缩 文档 。 

(6) 离线 浏览 : 离线 浏览 允许 用 户 设置 在 干 个 网 站 ,将 页 面 从 服务 需 下 载 到 用 户 
人 硬盘 里 ,从 而 可 以 在 不 连接 互联 网 的 情况 下 进行 Web 浏览 。 实 现 这 种 功能 的 是 离线 
浏览 器 ,典型 的 离线 浏览 器 包括 Offline Browser、WebZIP、WebCopier 等 。 它 们 的 核 
心 技 术 就 是 人 息 虫 技术 ,只 是 在 执行 时 离线 浏览 各 需 要 限定 息 行 的 范围 , 即 所 知 要 息 行 
的 网 站 列表 ,以 人 免 息 虫 漫 无 边际 地 沿 厦 页面 超 链 接 下 载 其 他 网 站 的 页 面 内 容 。 

男 一 类 应 用 是 监测 型 候 虫 ,这 类 扑 虫 不 是 以 采集 信息 为 主要 目标 ,并 非 要 采集 尽 
可 能 多 的 信息 ,而 是 利用 爬虫 在 内 容 采 集 和 分 析 方 面 的 能 力 对 服务 需 的 信息 内 容 进 
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行 监测 ,因此 对 疏 虫 和 服务 器 的 交互 能 力 提 出 了 更 多 要 求 。 其 典型 的 应 用 包括 应 用 
安全 监测 和 内 容 安全 监测 。 

(1) 应 用 安全 监测 : 应 用 层 安 全 是 网 络 信息 安全 的 重要 问题 之 一 ,这 类 安全 与 具 
体 应 用 有 密切 关系 ,而 随 着 部 署 在 互联 网 的 应 用 越 来 越 多 ,应 用 安全 问题 变 得 愈 发 突 
出 。 作 为 互联 网 应 用 的 主流 客户 端 , 浏 览 副 需要 人 为 的 点 击 和 数据 输入 ,并 且 所 有 的 
执行 可 能 会 对 宿主 计算 机 产生 安全 威胁 ,因此 在 应 用 安全 监测 方面 的 效率 和 及 时 性 
会 受到 很 大 影响 。 基 于 网 络 息 虫 技 术 , 则 可 以 在 很 大 程度 上 改变 这 种 情况 。 网 页 挂 
马 的 监测 就 是 在 爬虫 获取 页 面 后 对 页 面 中 所 包含 的 动态 脚本 进行 特征 分 析 。SQL 
注 和 人 是 另 一 种 彰 见 的 应 用 安全 问题 ,可 以 通过 爬虫 技术 回 所 要 监测 的 Web 服务 融 发 
起 查询 命令 ,并 根据 返回 结果 进行 安全 判断 。 

(2) 内 容 安全 监测 : 内 容 安 全 是 网 络 信息 安全 的 最 高 层次 ,敏感 信息 .泄密 信息 
等 的 监测 需要 从 内 容 层面 上 分 析 其 安全 属性 ,通常 这 类 信息 的 监测 需要 在 当事人 不 
知情 的 情况 下 进行 ,因此 采用 目 动 化 的 朴 虫 技术 ,并 结合 适当 的 内 容 分 析 技 术 , 是 合 
理 的 选择 。 

可 以 预计 , 随 着 互联 网 大 数据 在 各 个 行业 得 到 越 来 越 多 的 关注 ,运用 爬虫 技术 进 
行 数据 获取 或 监测 将 变 得 更 加 普遍 ,应 用 领域 和 场景 也 会 越 来 越 丰富 ,未 来 息 虫 的 应 
用 将 进入 一 种 广义 的 采集 阶段 ,而 非 目 前 的 侧重 于 数据 抓 取 。 因 此 ,读者 非常 有 必要 
深入 掌握 网 络 爬 虫 的 核心 技术 .实现 方法 及 未 来 技术 发 展 。 


1.5 惟 虫 大 数据 采集 的 拉 术 体系 


1.5.1 技术 体系 构成 


在 许多 开源 系统 的 基础 上 设计 开发 网 络 爬 虫 已 经 变 得 简单 ` 可 行 , 然 而 要 针对 有 具 
体 爬 行 任 务 要 求 来 提升 肘 虫 性 能 ,需要 进一步 了 解 爬 虫 的 技术 原理 。 关 似 于 软件 体 
系 帮 构 原理 ,可 以 从 静态 ` 动 态 等 多 个 视角 来 理解 网 络 爬 虫 的 技术 组 成 。 

分 层 架 构 是 描述 复 隶 软件 系统 的 一 种 凋 见 方法 ,图 1-2 是 网 络 爬 虫 的 层次 架构 
图 。 从 底层 往 上 ,依次 可 以 分 成 4 个 层次 , 即 网 络 连接 层 、 页 面 米 集 层 、 页 面 提取 层 和 
领域 处 理 层 。 对 采集 到 的 数据 的 使 用 并 不 包含 在 这 个 体系 中 ,因为 这 是 具体 应 用 ,并 
不 属于 爬虫 采集 。 
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Wy 一 一 


图 1-2 网络 怜 虫 的 层次 钠 构 


这 4 个 层次 的 功能 原理 解释 如 下 。 

(1) 网 络 连接 层 : 主要 由 TCP Socket 连接 的 建立 .数据 传输 以 及 连接 管理 组 成 。 
由 于 目前 Web 服务 器 使 用 的 是 HTTP 1.0 或 HTTP 1.1 协议 ,支持 TCP 连接 复 用 
或 连接 的 持久 化 ,所 以 如 果 疏 虫 利用 这 些 特 性 ,Socket 连接 的 建立 、 断 开 及 URL 请 求 
和 结果 的 接收 需要 按照 一 定 的 顺序 进行 。 此 外 ,在 候 虫 执行 过 程 中 可 能 需要 重新 连接 
Web 服务 器 ,为 了 减少 域名 到 IP 地 址 转换 的 时 间 , 疏 虫 通常 要 支持 优化 的 DNS 缓存 。 

(2) 页 面 采 集 层 : 主要 包括 对 URL 的 处 理 , 从 中 提取 域名 ,并 按照 Robots 规范 
决定 URL 的 抓 取 许 可 ,同时 在 面 对 众 多 的 候 行 任务 时 需要 按照 一 定 的 搜索 策略 来 决 
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定 URL 的 抓 取 顺序 。 在 抓 取 页 面 时 ,如 果 涉 及 动态 页 面 , 可 能 需要 考虑 在 怜 虫 中 实 
现 Session 机 制 。 最 终 的 URL 命令 及 结果 是 通过 HTTP 协议 数据 包 发 送 的 ,在 头 部 
信息 中 可 以 携带 Cookie 信息 。 

(3) 页 面 提取 层 : 该 层 完 成 了 HTML 文本 信息 的 处 理 , 主 要 是 从 中 提取 超 链接 、 
正文 信息 等 内 容 , 因 此 需要 按照 相应 的 HTML 编码 规范 进行 提取 。 同 时 ,由 于 不 同 
网 站 对 Web 页 面 信 息 的 编码 方式 并 不 完全 相同 ,例如 utf-8、unicode、gbk 等 ,在 解析 
文本 信息 时 需要 考虑 页 面 的 编码 方式 。 当 然 目前 有 很 多 的 开源 框架 文 持 页 面 解 析 ， 
包括 lxml、BeautifulSoup 等 ,设计 人 员 需 要 掌握 一 些 相 应 的 规范 ,例如 XPath。 

(4) 领域 处 理 层 : 一 些 特定 类 型 疏 虫 需要 完成 的 功能 ,对 于 普通 爬虫 而 言 ,该 
层 并 不 需要 。 领 域 处 理 主 要 有 主题 仆 虫 .Deep Web 疏 虫 ,因此 需要 一 定 的 文本 分 
析 技 术 来 支持 ,包括 文本 分 词 、 主 题 建 模 等 。 对 Web 页 面 的 安全 监测 也 属于 领域 
处 理 。 

从 网 络 爬 虫 应 用 的 角度 看 ,在 具体 应 用 领域 ,爬虫 的 类 型 有 很 多 种 ,包括 普通 扑 
虫 .主题 怜 虫 .Deep Web 候 虫 等 ,页 面 提取 层 、 页 面 采 集 层 和 网 络 连 接 层 技术 是 这 
疏 虫 所 共有 的 技术 问题 。 


1.5.2 相关 技术 


1. 相关 协议 与 规范 


网 络 息 虫 是 一 种 客户 端 技 术 , 它 不 能 离开 服务 端 独立 工作 ,而 服务 端 是 由 众多 
分 布 在 互联 网 上 的 Web 服务 顺 组 成 。 在 这 样 的 环境 下 疏 虫 要 从 不 同 的 配置 .不 同 
Web 软件 的 服务 器 上 采集 页 面 信息 ,就 需要 按照 一 定 的 协议 或 规范 来 完成 交互 过 
程 。 在 爬虫 技术 实现 时 需要 遵守 这 些 协 议 或 规范 。 具 体 来 说 ,这 些 协 议 与 规范 
如 下 。 

1) TCP 协议 

TCP 协议 是 网 络 息 虫 的 底层 协议 , 当 息 虫 与 Web 服务 硕 建 立 连接 、 传 输 数 据 时 
都 是 以 该 协议 为 基础 。 在 技术 实现 上 具体 表现 为 Socket 编程 技术 。 各 种 语言 都 提 
供 了 对 此 的 支持 ,例如 Java 提供 InetAddress 类 ,可 以 完成 对 域名 与 IP 之 间 的 正 向 、 
道 向 解析 。 在 Python 中 则 有 dnspython 这 个 DNS 工具 包 , 利 用 其 查询 功能 可 以 实 
现 DNS 的 服务 监控 及 解析 结果 的 校 验 。 不 管 哪 种 语言 或 开发 平台 ,DNS 的 解析 一 般 
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都 是 调用 系统 目 市 的 API, 通 名 是 Socket 的 getaddrinfo() 果 数 。 

2) HTTP 协议 

HTTP 协议 是 一 种 应 用 层 协议 ,用 于 超 文本 传输 。 它 规定 了 在 TCP 连接 上 回 
Web 服务 器 请 求 页 面 以 及 服务 器 加 爬虫 啊 应 页 面 数据 的 方式 和 数据 格式 。 疏 虫 实现 
时 ,对 HTTP 协议 的 依赖 比较 大 ,目前 Web 服务 器 使 用 的 HTTP 协议 版 本 主要 是 
HTTP 1.0 和 HTTP 1.1, 而 最 新 的 版 本 是 HTTP 2.0。 这 些 协议 在 功能 上 有 一 定 差 
异 , 但 也 有 很 多 共同 的 地 方 。 在 设计 爬虫 程序 时 需要 充分 了 解 HTTP 协议 。 

3) Robots 协议 

Robots 协议 也 称 为 爬虫 协议 ,其 全 称 是 “网络 爬虫 排除 协议 ” (Robots Exclusion 
Protocol) 。 该 协议 指明 了 哪些 页 面 可 以 抓 取 , 哪 些 页 面 不 能 抓 取 , 以 及 抓 取 动作 的 时 
间 、 延 时 .频次 限定 等 。 该 协议 最 早 是 针对 搜索 引擎 私 虫 ,目前 在 各 种 爬虫 中 都 可 适 
用 。Robots 协议 只 代表 了 一 种 契约 ,并 不 是 一 种 需要 强制 实施 的 协议 。 疏 虫 遵守 这 
一 规则 ,能 够 保证 互联 网 数据 采集 的 规范 化 ,有 利于 行业 的 健康 发 展 。Robots 协议 
的 详细 介绍 可 见 “http://www. robotstxt. org/robotstxt. html”。 

4) Cookie 规范 

Cookie 是 指 某 些 网 站 为 了 辨别 用 户 映 份 、 进 行 Session 跟踪 而 储存 在 用 户 本 地 
设备 上 的 数据 。 通 过 Cookie 可 以 将 用 户 在 服务 端的 相关 信息 保存 在 本 地 ,这 些 信息 
通常 是 用 户 名 \ 口 令 、 地 区 标识 等 ,这 些 信息 会 由 浏览 器 上 自动 读 出 ,并 通过 HTTP 协 
议 发 送 到 服务 端 。 在 RFC 6265(http://www. rfc-editor. org/rfc/rfc6265. txt) 规 范 
中 具体 规定 了 Cookie 的 数据 含义 .格式 和 使 用 方法 。 

5) 网 页 编码 规范 

网 页 编码 是 指 对 网 页 中 的 字符 采用 的 编码 方式 。 由 于 一 个 网 页 可 能 被 来 自 世 界 
各 地 的 访客 访问 ,而 每 个 国家 的 语言 并 不 完全 相同 ,所 以 为 了 使 网 页 内 容 能 正常 显示 
在 访客 的 浏览 右上 ,需要 有 一 套 共 同 的 约定 来 表明 页 面 中 字符 的 提取 识别 方法 。 目 
前 常见 的 网 页 字符 编码 主要 有 unicode、utf-8、gbk、gb2312 等 ,其 中 utf-8 为 国际 化 编 
码 , 在 各国 各 地 区 的 网 站 中 都 很 币 见 ,是 最 通用 的 字符 编码 。 爬 虫 在 解析 页 面 内 容 时 
怠 需 要 识别 页 面 的 编码 方式 。 

6) HTML 语言 规范 

HTML(Hyper Text Markup Language, 超 文本 标记 语言 ) 是 一 种 用 来 描述 网 页 
的 语言 , 它 规 定 了 页 面 的 版 式 、 字 体 、 超 链接 、 表 格 , 甚 至 音乐 .视频 、 程 序 等 非 文学 元 
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紊 的 表示 方法 。 对 疏 虫 采集 页 面 的 解析 、 对 表格 数据 的 提取 .对 正文 的 提取 等 都 需要 
根据 HTML 定义 的 各 种 标签 才能 正确 完成 。 目 前 最 新 的 HTML 版 本 为 2017 年 12 
月 万 维 网 联盟 (W3C) 发布 的 HTML 5. 2。 


2. Web 信息 提取 技术 


对 于 网 络 息 虫 采 集 页 面 数据 而 言 ,最 终 的 目标 是 获得 页面 中 的 内 容 , 因 此 如 何 从 
HTML 编码 的 内 容 提 取 所 需要 的 信息 是 人 息 虫 采集 Web 数据 需要 解决 的 问题 。 此 
外 ,由 于 候 虫 是 依赖 于 超 链接 来 获得 更 多 的 候 行 页 面 ,所 以 从 Web 页 面 中 提取 超 链 
接 也 是 Web 信息 提取 的 技术 问题 。 

总 的 来 说 ,Web 信息 提取 包含 两 大 部 分 , 即 Web 页 面 中 的 超 链接 提取 和 Web 内 
容 提 取 。 对 于 前 者 而 言 , 超 链接 在 Web 页 面 中 具有 相对 比较 有 限 的 标签 特征 ,因此 
通常 可 以 使 用 简单 的 正则 表达 式 之 类 的 方法 来 提取 。 对 于 页 面 中 正文 内 容 的 提取 则 
要 复杂 一 些 。 由 于 不 同 页 面 的 正文 位 置 并 不 相同 ,并 且 网 站 也 会 经 常 改版 ,所 以 为 了 
候 虫 解析 Web 页 面 的 程序 能 够 具备 一 定 的 灵活 性 和 适应 性 ,需要 引入 一 定 的 技术 手 
段 来 减轻 这 种 变化 所 需要 的 程序 维护 工作 。 其 常用 的 方法 是 将 Web 页 面 转换 成 为 
一 棵 树 ,然后 按照 一 定 的 规则 从 树 中 获得 所 需要 的 信息 。 

目前 ,在 Python 中 已 经 有 很 多 种 开源 库 可 以 用 来 实现 基于 树 结构 的 信息 提取 ， 
并 且 有 灵活 的 策略 可 以 配置 。 这 些 开 源 库 主要 有 html. parser、lxml、html5lib、 
BeautifulSoup 以 及 PyQuery 等 。 这 些 库 各 有 各 的 优 缺 点 ,开发 人 员 在 实际 应 用 中 可 

一 些 高 级 的 方法 试图 使 仆 虫 提取 Web 信息 有 更 好 的 适应 能 力 ,一 种 途径 是 引入 
统计 思想 ,对 页 面 中 正文 部 分 的 各 种 特征 进行 统计 ,在 大 量 样本 特征 计算 的 基础 上 设 
置 合 适 的 特征 值 范围 ,从 而 为 自动 提取 提供 依据 。 


3. 典型 应 用 中 的 数据 获取 技术 


网 络 疏 虫 有 多 种 不 同 的 采集 需求 ,Deep Web 和 主题 获取 是 其 中 的 两 种 典型 代 
表 , 在 实际 中 也 会 经 第 用 到 。 这 其 中 所 涉及 的 技术 与 普通 候 虫 并 不 一 样 ,因此 开发 人 
能 够 进行 主题 获取 的 爬虫 被 称 为 主题 怜 虫 ,在 技术 手段 上 ,其 核心 在 于 主题 。 围 
擅 主题 的 定义 方法 .主题 相似 度 计算 等 天 键 问题 ,有 一 系列 来 目 文本 内 容 分 析 的 技术 
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可 以 使 用 ,主要 有 文本 预 处 理 撤 术 .主题 表示 主题 建 醒 等 。 文 本 预 处 理 技 术 包括 词 
汇 的 切 分 . 停 用 词 过 小 等 ,而 主题 建 模 则 可 以 利用 各 种 主题 模型 ,例如 PLSA、LDA.、 
基于 回 量 空间 的 主题 表示 模型 以 及 简单 的 布尔 模型 等 。 

Deep Web 采集 的 爬虫 目标 是 获得 存储 在 后 台数 据 库 中 的 数据 ,属于 一 种 闪 度 数 
据 获 取 , 而 并 通 爬虫 通常 是 一 种 面 回 表 面 的 数据 采集 。 既 然 羡 诉 度 数据 获取 ,就 需要 
对 数据 的 采集 接口 有 一 定 的 处 理 能 力 ,同时 需要 具备 一 定 的 输入 识别 和 自动 填写 能 
力 , 因 此 需要 一 定 的 知识 库 来 文 持 。 


4. 网 络 礁 虫 的 软件 技术 


网 络 爬 虫 除 了 技术 架构 中 所 列 出 来 的 技术 外 , 另 一 个 重要 的 问题 是 这 些 技术 如 
何 进行 协调 合作 ,共同 完成 互联 网 大 数据 的 采集 。 这 是 通过 网 络 爬 虫 的 软件 技术 来 
保证 的 ,在 技术 实现 时 通常 有 多 种 不 同 的 选择 。 

1) 多 线程 技术 

从 网 络 爬 虫 的 技术 体系 看 ,对 于 某 个 页 面 的 采集 ,3 个 层次 上 的 功能 执行 具有 先 
后 顺序 , 即 必须 先 建立 网 络 连接 ,再 进行 HTTP 协议 数据 的 发 送 和 接收 处 理 , 最 后 根 
据 朴 虫 采集 需求 对 接收 到 的 页 面 数据 进行 解析 和 内 容 提取 。 如 果 是 主题 朴 虫 ,还 需 
要 进行 一 些 内 容 分 析 。 

怜 虫 通 第 并 不 针对 茶 个 页 面 , 而 是 根据 超 链 接 抓 取 多 个 页 面 。 这 些 页 面 的 抓 取 
过 程 之 间 相 互 独立 ,因此 在 实现 时 可 以 使 用 多 线程 技术 。 通 篆 的 做 法 是 设置 奋 干 线 
程 分 别 进行 页 面 内 容 提 取 、URL 处 理 .HTTP 命令 数据 包 构 建 、. 响 应 数据 的 接收 以 及 
建立 网 络 连接 等 。 不 同 线 程 之 间 可 以 通过 文件 ,共享 内 存 进行 数据 交换 。 

2) 单机 系统 

如 果 需 要 抓 取 的 页 面 数 量 不 多 ,在 息 虫 系统 的 技术 实现 上 可 以 部 轩 在 一 台 机 玫 
上 , 即 单 机 系统 模式 。 在 这 个 模式 下 ,线程 的 设置 要 考虑 到 机 带 的 配置 和 网 络 市 宽 。 
如 果 配 置 高 , 则 线程 数量 可 以 多 一 些 ; 如 果 网 络 带 宽大 , 则 处 理 网 络 连接 的 线程 可 以 
多 一 些 。 具 体 线 程 数 量 需要 在 实际 环境 下 进行 调整 。 

3) 分 布 式 系统 

如 果 需 要 抓 取 的 页 面 数量 很 多 ,以 至 于 爬虫 很 难 在 用 户 预 期 的 时 间 内 完成 页 面 
数据 的 采集 ,在 这 种 情况 下 就 需要 进行 分 布 式 处 理 。 在 分 布 式 爬虫 系统 设计 中 ,一般 
将 爬行 任务 ( 即 URL 列表 ) 分 配给 知 干 个 不 同 的 计算 节点 ,而 设置 统一 的 协调 中 心 来 
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管理 整个 分 布 式 系 统 所 要 改行 的 URL 列表 。 在 分 布 式 系统 中 ,每 个 市 点 在 处 理 息 行 
任务 时 仍 可 以 采用 多 线程 结构 。 

尽管 朴 虫 在 软件 技术 方面 有 多 种 不 同 的 选 挤 ,但 朴 虫 只 是 一 个 客户 器 程序 ,为 了 
有 效 提 高 整个 朴 虫 系统 采集 数据 的 性 能 ,显然 不 能 忽略 服务 条 闯 的 承受 和 啊 应 能 力 。 
对 于 扑 虫 系统 而 言 , 它 是 根据 了 所 要 扑 行 的 URL 集合 来 执行 任务 的 。 如 果 在 短 时 间 
内 ,爬虫 奖 多 个 线程 或 分 布下 点 同时 连接 到 同一 个 服务 融 进 行 页 面 采 集 , 显 然 这 些 大 
量 的 连接 请 求 会 在 服务 天 问 产生 较 大 的 黄 源 占用 ,从 而 影响 服务 华 的 正常 运行 ,最 终 
导致 个 虫 系统 采集 数据 的 效率 降低 。 因 此 ,在 多 线程 .分 布 式 爬 虫 设 计时 应 当 进 行 合 
理 的 爬行 任务 分 配 , 即 设计 合理 的 爬行 策略 ,避免 这 种 情况 出 现 。 


1.5.3 技术 评价 方法 


疏 虫 技术 是 一 种 与 型 的 Web 页 面 数据 采集 方法 ,得 到 了 许多 技术 人 员 的 关注 ， 
因此 目 表 不 断 有 新 的 候 虫 技术 或 开源 框架 被 提出 来 。 在 这 种 情况 下 需要 有 一 僚 比 较 
完整 的 候 忠 技术 评价 方法 ,以 便于 进行 比较 、 权 衡 和 选择 。 归 纳 起 来 ,网 络 息 虫 技术 
的 评价 方法 可 以 从 以 下 10 个 方面 进行 ,这 10 个 方面 可 以 分 为 友好 扑 忠 技术 (1、2)、 
页 面 采 集 技术 (3.4.5)、 内 容 处理 技 术 (6.7)、 疏 虫 软件 技术 (8、9、10)4 个 方面 。 


1， 是否 遵守 Robots 协议 


在 Web 页 面 抓 取 的 过 程 中 ,是 否 进 行 了 Robots 许可 公告 的 判断 ,是 否 根 据 许 可 
规范 来 确定 爬虫 的 抓 取 权限 。 
2. 友好 有 把 虫 请 求 技 术 


友好 爬虫 以 不 对 Web 服务 副 造 成 拒绝 服务 攻击 为 接线 ,因此 友好 息 忠 应 当 具 备 
请 求 间隔 可 调整 .符合 Web 服务 大 关 于 访问 局 峰 期 的 规定 ,同时 应 当 根 据 服务 大 返 
回 的 状态 调整 自己 的 请 求 强 上 度 。 


3. 高 效 采集 技术 


高 效 是 指 在 一 定 的 时 间 和 网 络 带 宽 限定 下 疏 虫 采集 到 尽 可 能 多 的 Web 页 面 。 
这 其 中 所 涉及 的 让 虫 核心 技术 较 多 ,包括 站 内 页 面 的 遍历 策略 、 站 外 页 面 的 遍历 策 
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上 略 、UREL 去 重 技术 等 。 对 于 Deep Web 来 说 ,还 涉及 如 何 降 低 查 询 次 数 的 技术 
问题 。 


在 每 次 运行 时 ,爬虫 是 否 能 够 判断 哪些 页 面 内 容 已 经 更 新 ,并 采集 目 上 次 采集 以 
来 新 出 现 的 内 容 , 此 即 为 增 量 式 采 集 技术 。 


5. 对 动态 页 面 的 支持 


动态 负面 的 实现 可 以 通过 URL 传递 参数 .通过 Cookie 传递 参数 以 及 使 用 Ajax 
等 技术 来 实现 ,不 同 的 爬虫 技术 对 这 些 技术 的 支持 程度 有 所 不 同 。 


6. 页 面 编码 与 语言 处 理 能 力 


普通 型 的 网 络 怜 虫 根据 超 链接 在 Web 空间 上 跳 转 ,很 可 能 要 面 对 多 种 不 同 页 
面 . 不 同 语言 的 Web 页 面 , 好 的 爬虫 应 当 能 够 处 理 这 些 差异 可 能 造成 的 存储 信息 乱 
码 问 题 。 


7. 主题 相关 度 评估 


对 于 主题 候 虫 而 言 ,要 衡量 采集 到 的 页 面 与 事先 设 定 的 主题 的 相关 度 ,可 以 进 一 
步 从 主题 信息 的 召回 率 和 准确 率 两 个 指标 来 衡量 ， 


8， 对 分 布 式 架构 的 支持 


在 面 对 海 量 Web 信息 的 采集 任务 时 , 通 第 需要 爬虫 具备 分 布 式 架构 ,以 协调 多 
台 计 算 机 高 效 完 成 采集 任务 。 


9。 可 配置 线程 技术 


疏 虫 需要 完成 Web 服务 器 连接 建立 .URL 命令 发 送 、Web 页 面 内 容 采 集 、URL 
过 小 以 及 有 息 行 末 略 省 理 等 任务 ,这 些 任 务 可 以 按照 一 定 方 式 同步 进行 ,从 而 提升 采集 
效率 。 是 否 可 以 根据 计算 机 的 配置 情况 来 设 定 线程 数量 是 一 个 必要 的 技术 。 
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在 一 般 情 况 下 ,爬虫 采集 时 需要 面 对 Web 服务 器 、 通 信和 网 络 等 多 方面 的 异常 ， 
健壮 的 爬虫 应 当 具 有 一 定 的 容错 能 力 , 以 避免 各 个 环节 上 的 错误 而 导致 疏 虫 系统 


1.6 疏 虫 大 数据 采集 与 挖掘 的 合 规 性 


随 春 网 络 爬 虫 技术 应 用 的 普及 ,网 络 爬 虫 的 应 用 场景 越 来 越 多 ,但 是 一 些 不 合理 
使 用 网 络 爬 曰 技术 进行 大 数据 采集 的 条 例 也 不 断 出 现 , 甚 至 导致 了 相应 的 法 律 问 题 。 
因此 ,网 络 爬 虫 能 以 什么 方式 抓 取 什么 数据 这 个 问题 是 值得 考虑 的 ,其 他 关 似 问题 还 
包括 : 什么 杆 的 数据 可 以 存储 在 本 地 .什么 样 的 数据 可 以 共 旦 或 出 售 给 他 人 ,这 些 统 
称 为 大 数据 技术 及 应 用 的 合 规 性 ,如 图 1-3 所 示 。 但 这 并 非 本 书 的 重点 ,这 里 只 是 对 
当前 的 一 些 观点 进行 归纳 总 结 ,并 从 数据 抓 取 权 限 、 网 站 访问 方式 和 数据 量 与 数据 使 
用 3 个 方面 对 爬虫 的 合 规 性 做 了 一 些 探讨 。 


大 数据 采集 的 人 台 规 性 


性 
| 
Lb 
-| 


大 数据 拉 术 太 
应 用 的 合 规 性 


大 数据 存储 、 控 据 、 
共 至 与 交易 的 合 规 性 


图 1-3 大 数据 技术 及 应 用 的 合 规 性 


1. 数据 抓 取 权 限 


从 这 个 方面 看 , 疏 虫 可 以 抓 取 具有 访问 权限 的 数据 ,这 应 该 是 其 边界 之 一 。 访 问 
权限 可 以 从 数据 是 否 公 开 页面 是 否 许可 来 判断 。 疏 虫 对 公开 的 数据 当然 具备 抓 取 
权限 ,公开 或 不 公开 的 判断 依据 是 否 需 要 以 一 定 用 户 身 份 登录 后 才能 看 到 数据 ,并 且 
以 其 他 用 户 身 份 登录 后 是 看 不 到 这 些 的 。 在 各 类 不 公开 数据 的 采集 中 ,容易 引起 纠 
纷 的 是 用 户 个 人 信息 ,包括 个 人 身份 信息 ,行踪 轨迹 、 联 系 方式 等 。 在 采集 这 类 数据 
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前 , 疏 虫 应 当 获 得 用 户 授权 。 

未 公开 的 网 络 数据 , 候 虫 程序 无 权 获 取 , 可 能 会 被 认定 为 非法 获取 计算 机 信息 系 
统 数据 罪 。 在 《中 华人 民 共 和 国 刑法 ) 第 二 百 八 十 五 条 提 到 非法 获取 计算 机 信息 系统 
数据 罪 ,是 指 侵 入 国家 事务 .国防 建设 .尖端 科学 技术 领域 以 外 的 计算 机 信息 系统 或 
者 采用 其 他 技术 手段 ,获取 该 计算 机 信息 系统 中 存储 、 处 理 或 者 传输 的 数据 。 这 里 
“ 侵 人 ”是 指 行为 人 采用 破解 密码 、 盗 取 密 人 码 、 强 行 突破 安全 工具 等 方法 ,在 没有 得 到 
许可 时 违背 计算 机 信息 系统 控制 人 或 所 有 人 意愿 进入 其 无 权 进 入 的 计算 机 信息 系统 
中 。 典 型 的 途径 是 破解 APP 的 加 密 算法 或 网 络 交 互 协 议 、 调 用 规则 和 参数 ,从 而 的 
虫 突破 权限 许可 获取 数据 。 

抓 取 权限 的 另 一 个 界定 方法 是 Robots 协议 ,如 果 网 站 有 设置 robots. txt 文件 ， 
则 疏 虫 应 当 依据 该 文件 决定 某 个 特定 的 URL 是 否 许 可 。 该 文件 的 具体 说 明 见 本 书 
3.5 方 中 的 介绍 。 


2. 肘 虫 的 访问 方式 


这 是 指 爬 虫 访问 服务 天 的 方式 ,其 边界 为 朴 虫 是 否 对 服务 做 的 正和 运行 造成 影 
啊 。 如 果 网 络 朴 虫 在 短 时 间 内 频繁 访问 Web 服务 器 ,通常 是 采用 分 布 式 、 并 行 抓 取 
等 技术 ,从 而 寻 致 服务 天 不 能 正 篆 运行 ,其 客户 访问 变 得 很 慢 甚 至 无 法 啊 应 。 如 采 突 
破 这 个 边界 ,可 能 会 涉及 破坏 计算 机 信息 系统 排 , 目 前 也 有 一 些 候 虫 抓 取 被 法 院 按 这 

与 访问 方式 有 关 的 另 一 个 边界 仍然 是 Robots 协议 ,在 该 协议 中 定义 了 抓 取 延 
时 、. 抓 取 时 间 段 等 参数 ,如 朱 爬 虫 没 有 送 守 这 些 约 定 , 则 可 能 导致 服务 船 不 能 正 篆 运 
行 。 不 过 , 据 观 察 , 许 多 网 站 并 没有 充分 运用 Robots 协议 来 定义 这 些 参数 。 


3. 数据 量 与 数据 的 使 用 


数据 使 用 边界 是 指 抓 取 的 数据 是 否 用 于 商业 用 途 、 是 否 涉 及 版 权限 定 。 以 前 发 
生 的 一 个 例子 是 ,百度 公司 通过 息 虫 技术 从 大 众 操 评 网 等 网 站 获取 信息 ,并 将 抓 取 的 
信息 且 接 提供 给 网 络 有 用户 (展示 ), 最 终 补 上海 知识 产权 法 院 认 定 为 不 正当 苋 争 行为 。 
虽然 百度 公司 的 搜索 引擎 抓 取 涉 和 双 信 息 并 不 违反 Robots 协议 ,但 是 将 大 量 数据 用 于 
商业 用 途 或 展示 传播 ,很 可 能 会 涉及 不 正当 苋 争 ,属于 利益 冲突 。 此 外 ,根据 个 人 信 
县 安全 规范 ,涉及 个 人 信息 的 数据 不 应 该 存储 在 本 地 或 进行 融合 挖掘 。 
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总 的 看 来 ,互联 网 公开 资源 息 取 并 不 违法 ,网 络 息 虫 作为 互联 网 大 数据 采集 的 技 
术 手 段 ,本 身 具有 中 立 性 ,而 抓 取 没 有 权限 、 没 有 授权 的 数据 ,对 服务 器 正常 运行 产生 
影响 ,以 及 抓 取 后 的 数据 用 于 商业 用 途 ,未 经 授权 公开 展示 ,应 该 是 突破 了 疏 虫 大 数 
据 采 集 的 边界 。 与 候 虫 大 数据 采集 相关 的 规范 和 法 律 条 款 主要 出 现在 (中 华人 民 共 
和 国 网 络 安全 法 兴 计 算 机 信息 系统 安全 保护 条 例 兴 个 人 信息 安全 规范 兴 数 据 安 全 管 
理 办 法 (征求 意见 稿 )》 和 《 反 不 正当 竞争 法 》 中 。 在 设计 怜 虫 大 数据 采集 控 气 系统 之 
前 建议 阅读 这 些 规范 和 法 律 条 款 , 设 计 方 案 时 要 对 合 规 性 、 采 集 性 能 进行 适当 的 平 
衡 , 不 能 为 了 提高 采集 性 能 而 忽视 合 规 性 。 


1.7 疏 虫 大 数据 采集 技术 的 展 尾 


随 着 互联 网 技术 .大 数据 应 用 等 相关 技术 的 发 展 , 网 络 朴 虫 技术 作为 互联 网 大 数 
据 采 集 的 主要 途径 ,必然 会 不 断 发展 变 化 。 对 于 互联 网 大 数据 技术 人 赋 究 及 应 用 开发 
的 人 员 来 说 ,了 解 这 种 发 展 趋势 ,把 握 技 术 发 展 方向 ,是 非常 有 必要 的 。 

网 络 疏 虫 离 不 开 技 术 .应 用 和 行业 规范 ,因此 可 以 从 这 3 个 大 的 方面 来 分 析 网 络 
疏 虫 技术 发 展 的 推动 力 和 发 展 趋势 。 网 络 爬 虫 涉及 多 种 不 同 的 技术 ,包括 网 络 协 议 、 
HTML 编码 .网 络 架 构 等 ,这 些 技术 本 身 也 在 不 断 的 演进 。 技 术 的 发 展 虽 然 是 建立 
在 现 有 技术 的 基础 上 ,但 并 非 都 是 向 下 兼容 ,也 会 不 断 地 产生 新 的 思路 ,以 这 些 技术 
为 基础 的 网 络 息 虫 日 然 也 要 随 者 技术 的 发 展 而 发 展 。 

下 面 按照 这 个 思路 对 网 络 爬 虫 的 大 数据 采集 技术 的 今后 发 展 进行 分 析 和 和 叙述 ， 
主要 体现 在 以 下 6 个 方面 。 


1. HTTP 协议 的 升级 


自 1999 年 HTTP 1. 1 发布 后 ,直到 2015 年 才 发 布 了 新 的 版 本 HTTP 2.0, 它 被 
看 作 是 下 一 代 互 联网 通信 协议 ,但 是 目前 大 部 分 尚未 真正 实施 。 将 来 随 着 文 持 
HTTP 2.0 协议 的 网 站 的 数量 增多 ,网 络 爬 虫 的 协议 解析 和 数据 包 提 取 技 术 必 然 会 
有 相应 的 发 展 。 

HTTP 2.0 在 与 HTTP 1. 1 语义 兼容 的 基础 上 ,在 性 能 上 实现 了 大 幅 提 升 。 该 
版 本 采用 二 进 制 分 帧 层 ,将 进行 传输 的 消息 分 割 成 更 小 的 消息 和 帧 ,并 对 它们 采用 二 
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进 制 格式 的 编码 。 因 此 ,HTTP 2.0 允许 客户 端 与 服务 需 同 时 通过 同一 个 连接 发 送 
多 重 请 求 /响应 消息 ,实现 多 路 复 用 。HTTP 2.0 也 允许 服务 器 对 一 个 客户 端 请 求 发 
送 多 个 啊 应 , 即 服务 硕 推送 。 这 些 特 性 都 是 现 有 HTTP 1.1、HTTP 1.0 所 不 具备 
的 ,基于 新 的 HTTP 协议 ,爬虫 技术 承 需 要 有 相应 的 发 展 。 

国际 互联 网 工程 任务 组 (The Internet Engineering Task Force,IETF) 的 QUIC 
工作 小 组 创造 了 QUIC 传输 协议 。QUIC(Quick UDP Internet Connection) 是 一 个 使 
用 UDP 来 百代 TCP 的 协议 ,有 望 成 为 狐 一 代 HTTP 协议 , 即 HTTP 3 的 核心 基础 。 
其 目标 是 给 Web 浏览 提速 ,当然 怜 虫 也 可 以 从 中 获 益 。 


2. IPv6 的 广泛 应 用 


IPv6 是 IETF( 国 际 互 联网 工程 任务 组 ) 设 计 的 用 于 替代 现行 版 本 IP 协议 (IPv4) 
的 下 一 代 IP 协议 。 随 着 IPv4 地 址 耗 尽 , 互 联网 将 会 全 面部 署 IPv6。IPv4 最 多 可 以 
分 配 42 亿 个 IP 地 址 ,而 IPv6 可 提供 2 的 128 次 方 个 地 址 ,因此 没有 了 地 址 编码 的 限 
制 ,互联 网 应 用 与 现在 相 比 一 定 会 有 很 大 的 飞跃 。 

IPv6 对 疏 虫 技术 发 展 的 推动 主要 在 于 两 个 方面 。 一 方面 ,由 于 HTTP 数据 包 最 
终 还 是 通过 IP 层 进 行 传 送 , 所 以 在 IPv6 下 要 求 疏 虫 中 更 底层 的 网 络 数据 包 分 析 和 
数据 提取 技术 相应 的 发 展 ; 另 一 方面 ,IPv6 在 安全 性 方面 有 很 多 增强 ,对 疏 虫 与 Web 
服务 器 的 交互 技术 提出 新 的 要 求 。 


3. HTML 语言 的 发 展 


HTML 语言 规范 不 断 升 级 变化 ,当前 较 新 的 版 本 是 HTML 5。 相 比 于 以 前 版 
本 ,HTML 5 沫 加 了 很 多 新 元 系 及 功能 ,并 删除 了 一 些 旧 元 系 。HTIML 5 提供 了 新 
的 元 素来 创建 更 好 的 页 面 结构 ,元素 也 可 拥有 事件 属性 ,这 些 属 性 在 浏览 需 中 触发 行 
为 ,改变 页 面 的 动态 性 。 从 程序 设计 角度 看 ,除了 原先 的 DOM 接口 以 外 ,HIML 5 
增加 了 更 多 API, 实 现 定时 媒体 回放 、 离 线 数据 库存 储 等 功能 。 

随 看 今后 新 型 互联 网 不 断 出 现 , 可 以 预见 HTML 版 本 将 会 不 断 升级 ,因此 为 了 
更 好 地 处 理 Web 页 面 内 容 , 网 络 息 虫 在 Web 页 面 解 析 、 内 容 提取 方面 的 技术 也 将 不 
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4. 新 型 网 站 架构 的 出 现 


Web 服务 应 用 架构 从 最 早 的 Client/ Server 发 展 到 集群 .负载 均衡 、 虚 拟 主机 等 
技术 ,每 次 新 技术 的 出 现 净 古 Web 服务 应 用 架构 试图 解决 蜗 可 用 性 、 蜗 并发、 可 维护 
等 实际 问题 。 云 计算 、 区 块 链 等 新 的 计算 和 处 理 染 构 必 将 使 得 Web 应 用 架构 发 生 蕊 
化 ,从 而 使 得 网 络 爬 虫 在 技术 上 也 需要 不 断 更 新 ,以 适应 服务 病 架 构 特 征 。 


s。 Web 应 用 的 推动 


Web 应 用 中 的 互联 网 大 数据 朝 着 多 样 化 ,流动 性 、 隐 匿 性 等 方面 发 展 ,对 和 候 虫 信 
息 采 集 提 出 了 新 的 要 求 。 目 前 有 3 种 典型 的 Web, 即 Surface Web、Deep Web、Dark 
Web。 当 前 息 虫 主要 针对 表面 网 络 (Surface Web) 和 深 网 (Deep Web)。 尽 管 如 此 ,将 
来 随 着 物 联网 等 新 应 用 的 普及 ,数量 巨大 的 Deep Web 数据 或 许 对 当前 的 动态 网 页 


访问 提出 新 的 需求 ,例如 实时 性 每 ,因此 相应 的 新 的 软件 技术 和 架构 也 会 随 之 


为 一 方面 , 瞳 网 (Dark Web) 包 含 那 些 故意 隐藏 的 信息 和 网 站 ,并 且 无 法 通过 人 
们 每 天 使 用 的 浏览 辫 访 问 , 通 笛 只 能 通过 特殊 的 软件 和 特定 的 URL 进入 。 随 看 暗 网 
的 影响 力 越 来 越 大 ,对 暗 网 的 监 官 需 求 也 很 迫切 。 客 尸 疾 如 何 与 瞳 网 融 效 交互 并 采 
集 各 类 信息 成 为 报 术 发 展 的 十 疝 方 同 之 一 。 


6. 行业 规范 的 推动 


互联 网 大 数据 采集 所 涉及 的 行业 规范 包括 页 面 访 问 许 可 .访问 行为 规约 ` 数 据 权 
属 以 及 数据 质量 等 方面 。 

虽然 目前 的 Robots 协议 规定 了 措 述 页 面 访 问 许 可 .访问 行为 规约 的 方法 ,但 是 
该 协议 并 非 是 强制 执行 的 , 寻 致 很 多 爬虫 并 不 这 和 守 服 务 方 的 公告 。 由 此 , 疏 虫 和 服务 
方 之 间 为 了 数据 的 采集 与 保护 进行 了 持续 的 博 讲 ,最 终 寻 致 双方 那 要 付出 很 大 的 代 
价 。 这 种 基于 Robots 协议 的 页 面 访问 许可 和 行为 规约 还 有 很 大 的 改进 空间 。 男 一 
方面 ,Robots 协议 针对 页 面 进行 许可 控制 ,对 于 Deep Web 数据 的 访问 许可 描述 不 
够 录 活 ,因此 需要 发 展 细 粒度 的 数据 许可 约定 方法 ,从 而 进一步 影响 有 息 虫 技术 

最 后 , 随 着 大 数据 交易 市 场 的 发 展 壮大 ,对 数据 权 属 .数据 所 有 权 、 数 据 质量 等 管 
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理 问 题 的 逐步 明确 ,相关 规范 将 会 得 到 行业 认可 ,作为 大 数据 采集 的 网 络 息 虫 在 技术 
处 理 上 显然 也 需要 遵守 这 些 相关 约定 。 


思考 题 


.举例 说 明 互 联网 大 数据 的 主要 特征 。 

. 互联 网 大 数据 采集 的 重要 性 体现 在 哪些 方面 ? 

. 网络 息 虫 际 了 抓 取 数 据 之 外 ,还 可 以 用 于 什么 场合 ? 
4. 有 息 虫 大 数据 采集 技术 体系 由 哪 几 个 部 分 组 成 ? 

5. 爬虫 可 以 随意 抓 取 互联 网 网 站 数据 吗 ? 

6. 影响 息 虫 技术 进一步 发 展 的 主要 因 系 有 哪些 ? 
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Web 页 面 及 相关 拉 术 


2.1 HTML 语言 规范 


HTML(Hyper Text Markup Language, 超 文本 标记 语言 ) 是 用 来 描述 网 页 的 一 
种 语言 。“ 超 文本 ” 指 的 是 页面 内 可 以 包含 图 片 链接 ,其 至 首 乐 、 视 频 、 程 序 等 非 文 字 
元 系 ;“ 标 记 语 言 指 在 文档 内 使 用 标记 标签 (Markup Tag) 来 定义 页 面 内 容 的 语言 ， 
例如 标记 标签 < body > 定义 文档 的 主体 。 一 个 网 页 对 应 着 一 个 或 多 个 HTML 文档 ， 
Web 浏览 右 读 取 HTML 文档 后 将 其 以 网 页 的 形式 显示 。 图 2-1(a) 为 一 个 简单 的 
HTML 文档 示例 ,(b) 为 使 用 Google 浏览 器 读 取 HTML 后 显示 的 网 页 。 


“<html> == $0 I'm title x 性 


<head> 
<title>I'm title</title> CO © file:///E:/example.html 
</head> = 


<body> Hello World! 


Hello World! 


/body> 
</html» 


(al example.html (b) HTML 文 档 显 示 的 网 页 


图 2-1 HTML 文档 及 其 显示 的 网 页 
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2.1.1 HTML 标 答 


标记 标签 又 被 称 为 HTML 标签 ,是 组 成 HTML 页 面 的 基本 内 容 。HTML 标签 
是 由 人 尖 插 号 包括 的 关键 词 ,例如 < body >、< head > 等 ,关键 词 可 以 忽略 大 小 写 。 从 开 
始 标签 到 闭合 标签 之 间 的 代码 称 为 元 素 。 在 标签 的 作用 下 ,文档 可 以 改变 样式 ,或 实 
现 插入 图 片 .链接 、 表 格 等 结构 的 功能 。 

HTML 标签 很 多 ,从 闭合 的 角度 可 以 分 为 财 合 标签 与 空 标 签 。 财 合 标签 是 指 由 开 
始 标 签 和 结束 标签 组 成 的 一 对 标签 ,市 和 斜 杠 的 元 素 表 示 结 束 , 例 如 < body > 和 </body >。 
这 种 标签 允许 艇 侠 和 承载 内 容 。 空 标签 是 没有 内 容 的 标签 , 通 第 用 来 占 位 ,在 开始 标 
答 中 自动 闭合 ,例如 < br>、<link>、< meta > 都 属于 空 标签 。 

HTML 标签 还 可 以 按照 在 文档 中 的 位 置 特 性 进行 分 类 ,主要 分 为 块 级 标签 、 行 
内 (内 瞬 ) 标 签 和 行内 - 块 级 (内 舱 - 块 级 ) 标 签 。 

(1) 块 级 标签 : 块 级 标签 是 独占 一 行 的 标签 ,并 且 标 签 间 的 元 系 能 随时 设置 宽 
度 高度、 顶部 和 拱 部 边 中 等。 第 见 的 块 级 标签 有 <Pp>、<hl >、<ul>、 < div > 等 。 

(2) 行内 (内 能) 标签 : 行内 标签 的 元 系 和 其 他 元 系 在 同一 行 上 ,而 元 系 的 党 度 、 
局 度 、 顶 部 和 奔 部 边 距 不 可 设置 。 例 如 标签 < span >.< a>、< label > 等 。 

(3) 行内 - 块 级 (内 骸 - 块 级 ) 标 签 : 多 个 行内 - 块 级 标签 的 元 系 可 以 显示 在 同一 行 ， 
并 且 可 以 设置 元 系 的 宽度 .局 度 、 顶部 和 撒 部 边 跑 。 例 如 < input>、<img>。 

际 了 标签 名 本 号 外 ,标签 还 可 以 市 有 一 些 属性 。 这 些 属性 在 网 络 息 虫 程序 设计 
中 也 经 党 使 用 。 以 下 是 典型 的 标签 和 属性 的 写法 。 

<a href = 'http://www. baidu. com/' target = ' blank'> 跳 转 到 baidu </a> 


< img src= "/images/pic.gif" width = "28" height = "30"> 
<div class= "container logo— Search > 


在 这 些 文本 中 ,href 是 标签 <a > 的 属性 ,指出 了 相应 的 超 链接 ; src 是 img 的 属 
性 ,其 属性 但 是 图 片 对 应 的 URL; < div> 标 签 通 第 会 指定 其 相应 的 class 属性 。 


2.1.2 HTML 整体 结构 


HTML 文档 都 具有 一 个 基本 的 整体 结构 ,包括 头 部 (Head) 和 主体 (Body) 两 大 
部 分 ,其 中 头 部 描述 浏览 需 所 需 的 信息 ,主体 包含 网 页 所 要 展示 的 具体 内 容 。 同 时 ， 
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HTML 文档 都 是 以 < html > 开头 ,表明 此 文档 使 用 HTML 语言 来 描述 ,</html > 表 
示 文 档 的 结尾 。 这 两 个 标签 限定 了 文档 的 开始 点 和 结束 点 ,在 它们 之 间 是 文档 的 头 

HTML 文档 整体 结构 如 图 2-1(a) 所 示 。 可 见 , HTML 标签 是 能 套 使 用 的 ,整个 
文档 通过 标签 艇 套 形成 一 棵 树 形 结构 。 因 此 ,在 网 络 爬 虫 进行 信息 提取 时 通 稼 将 
HTML 文档 转换 成 为 树 结构 ,再 进行 选择 ,具体 过 程 将 在 第 9 章 介 绍 。 


头 部 描述 浏览 需 所 需要 的 信息 ,例如 页 面 标题 、. 关键 词 .说 明 等 内 容 ; 头 部 包含 
的 信息 不 作为 网 页 的 内 容 来 显示 ,但 是 会 影响 网 页 的 显示 效果 。 头 部 信息 的 开始 和 
结尾 是 由 < head > 和 </head > 两 个 标签 标记 的 ,<title >、 <base>、 < link > .< meta >、 
< script > 以 及 < style > 标签 可 以 添加 到 头 部 信息 中 。 各 标签 的 描述 如 表 2-1 所 示 。 


表 2-1 头 部 标签 及 描述 号 


<head> | 定义 关于 文档 的 信息 定义 文档 与 外 部 资源 之 间 的 关系 
< title > | 定义 文档 的 标题 定义 关于 HTML 文档 的 元 数据 
定义 页 面 上 所 有 链接 的 默认 地 址 或 黑 定义 客户 端 脚本 文件 
< base > . _ ee sw 
认 目 标 定义 文档 的 样式 文件 


2. 主体 


网 页 需要 显示 的 实际 内 容 部 包含 在 主体 之 中 ,由 < body >、</body > 表示 主体 信 
息 的 开始 和 结尾 。 对 于 网 络 疏 虫 抓 取 Web 页 面 而 言 ,所 关注 的 信息 内 容 也 都 是 大 部 
分 封 痛 在 < body > 和 </body > 之 间 。 


2.1.3 CSS 向 述 


CSS(Cascading Style Sheet, 层 登 杆 二 表单) 是 从 HIML 4 开始 使 用 的 ,可 以 是 
义 如 何 显示 HTML 元 素 。 即 使 是 相同 的 HTML 文档 ,应 用 的 CSS 不 同 , 从 浏览 器 
看 到 的 页 面 外 观 也 会 不 同 。CSS 可 以 通过 以 下 3 种 方式 添加 到 HTML 中 。 


四 ” W3School 中 的 HTML 系列 教程 ,网址 为 “http://www. w3school. com. cn/html/html head. asp”, 检 索 日 期 
为 2018-07 
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1. 内 联 样 式 


内 联 桂 式 即 为 在 相关 的 标签 中 使 用 样式 属性 , 当 特 殊 的 样式 需要 应 用 到 个 别 元 
系 时 可 以 使 用 。 梓 式 属 性 可 以 是 任何 CSS 属性 ,主要 使 用 的 属性 为 style。 下 面 的 代 
但 设置 了 段落 的 颜色 。 


<p style = "color:blue"> This is a paragraph. </p> 


2. 内 部 样式 表 


当 单 个 文档 需要 特别 样式 时 可 以 在 头 部 通过 < style > 标签 定义 内 部 样式 表 。 下 
面 的 代码 通过 在 头 部 定义 内 部 样式 表 将 页 面 背 景 设 置 为 黄色 。 

< head > 

< stvle type = "text/css"> 

body {background — color :yellow;} 

p {color:blue;} 


</style> 
</head > 


3. 外 部 引用 


当 样 式 需 要 被 很 多 页 面 引用 时 ,可 以 使 用 独立 的 外 部 CSS 文件 ,这 样 可 以 简化 页 
面 模式 的 设计 。 


< head > 
< link rel = "stylesheet" type = "text/css" href = "mystyle.css"> 
</head > 


2.1.4 第 用 标签 


在 HTML 页 面 中 进行 内 容 提取 ,最 基本 的 依据 是 标签 。 虽 然 标签 数量 很 大 ,类 
型 很 多 ,但 是 在 网 络 息 虫 采集 中 并 非 关注 所 有 的 标签 。 以 下 是 一 些 与 息 虫 程序 设计 
相关 度 比较 大 的 标签 。 


1. < meta 之 


< meta > 提供 了 天 于 HTML 文 梢 的 元 数据 ,主要 包括 字符 编 但 .关键 词 、 页 面 描 
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述 、 最 后 修改 时 间 等 。 其 中 最 重要 的 是 字符 编 公 ,人 它 使 用 < meta > 的 charset 属性 声明 
Web 文档 的 字符 编 公 。 


<meta charset = "utf— 8"> 


2. <p> 


<p> 标 签 定 义 段落 ,可 以 将 要 显示 的 文章 内 容 放 在 <p> 与 </p > 标签 之 间 。 该 标 
签 会 自动 在 段落 前 后 添加 一 些 空白 ,可 以 使 用 CSS 来 进行 调整 。 通 常 Web 页 面 中 正 
文部 分 的 各 个 段落 都 是 通过 该 标签 来 表示 。 


<p> This is a paragraph </p> 


3,. div> 


< div> 用 来 定义 文档 中 的 分 区 或 方 ,把 文档 分 割 成 为 独立 的 部 分 ,经 第 用 于 网 页 
布局 。 该 标签 通 第 会 使 用 id 或 class 属性 设计 额外 的 样式 ,其 中 class 用 于 元 系 组 ,而 
id 用 于 标识 单独 的 唯一 的 元 系 。 


4. table> 


< table > 定义 页 面 的 表格 ,在 很 多 页 面 中 数据 以 表格 形式 展现 ,因此 它 也 是 疏 虫 
程序 需要 处 理 的 重要 标签 之 一 。 

HTML 页 面 中 的 人 简单 表格 由 table 元 率 以 及 多 个 tr\th ,td 元 素 组 成 。 其 中 tr 元 
素 定义 表格 行 ,td 元 素 定义 表格 单元 ,th 元 素 定 义 表 格 标题 
列 ; 同时 th 默认 加 粗 并 居中 显示 。< table > 的 常用 属性 为 表 
格 边框 属性 (border) , 当 使 用 border 二 "1" 设 置 边 框 时 ,会 在 所 图 2-2 代码 定义 的 表格 
有 表格 单元 以 及 表格 上 骨 套 边框 。 网 页 显示 的 表格 如 图 2-2 所 示 。 


<table border = "1"> 
< 人 Tr> 
<th> titlel </th> 
<th> title2</th> 
< 
< 七 工 >> 
<td> Contentl </td > 
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<td> content2 </td > 
</tr> 
</table> 


5. a> 


<a> 标 签 定 义 超 链接 ,用 于 从 一 张 员 面 链接 到 为 一 张 页 面 ,其 最 重要 的 属性 是 
href , 它 指定 链接 的 目标 。 爬 虫 在 采集 到 一 个 Web 页 面 之 后 ,就 需要 在 页 面 中 寻找 该 
标签 ,并 提取 出 超 链 接 作 为 新 的 爬行 任务 。 下 面 的 代码 定义 了 一 个 指向 github 的 超 
链接 。 


<a href = "https://github. com/"> github </a> 


0,. form> 


<form > 可 以 把 用 户 输入 的 数据 传送 到 服务 三 病 , 这 样 服 务 天 冰 程 序 就 可 以 处 理 
表单 传 过 来 的 数据 。form 的 两 个 重要 属性 是 action 和 method, 其 中 action 为 表单 需 
要 捉 交 的 服务 此 地 址 ,method 规定 表 早 提交 数据 使 用 的 方法 (GET/POST)。form 
可 以 包含 input 等 元 素 , 例 如 复 选 和 杠 .按钮 等 。 


7. < base > 


为 了 简化 包 舍 相对 路 径 的 超 链 接 的 转换 过 程 ,HTIML 语言 提供 了 < base > 标签 ， 
用 来 指定 页 面 中 所 有 超 链接 的 基准 路 径 。 例 如 ,如 有 果 在 p. html 中 有 如 下 的 < base > 
标签 : <base href 王 "http://www.a.b. cy/aaa/"”/>, 那 么 <img src 王 "images/p2. gif "> 
表示 从 “http://www. a.b. c/aaa/images/p2. gif” 获 得 图 片 文件 。 


8. < script > 


< script > 用 于 在 HTML 页 面 内 插入 脚本 。 其 type 属性 为 必 选 属性 ,用 来 指定 脚 
本 的 MIME 类 型 。 下 面 的 代 公 在 HTML 页 面 内 捅 和 人 JavaScript 脚本 ,在 网 页 中 输出 
“Hello World!”, 

< script type = "text/ javascript"> 


document. write("Hello World!") 


</script > 
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2.1.5 HTML 语言 的 版 本 进化 


目前 最 新 的 HTML 版 本 为 2017 年 12 月 万 维 网 联盟 (W3C) 发 布 的 HTML 5.2 
(https://www. w3. org/TR/2017/REC-html52-20171214/), 它 是 超 文本 标记 语言 ' 
五 版 (HTML 5) 的 第 二 次 更 新 。 目 1999 年 HTML 4 发 布 后 ,互联 网 发 展 日 新 月 异 ， 
特别 是 近 几 年 移动 设备 的 普及 和 多 媒体 的 发 展 ,很 多 应 用 场景 HTML 4 不 支持 或 实 
现 难 度 较 大 。HTML 5 是 基于 器 平台 设计 的 ,引入 了 新 元 素 和 新 API( 应 用 程序 编程 
接口 ) 人 简化 Web 应 用 程序 的 搭建 ,使 网 页 在 移动 设备 多 巡 体 上 的 实现 变 得 更 简单 。 
下 面 简 单 介 绍 一 些 HTML 5 的 新 特性 。 

(1) 语义 化 标签 ; 在 HTML 5 出现 之 前 使 用 < div > 实现 页 面 的 分 块 ,虽然 可 以 使 
用 id 属性 来 形容 每 个 分 块 ,例如 下 面 的 代码 ,但 没有 实际 意义 。 


<div id= "header > 


在 HTML 5 中 引入 了 新 的 内 容 标 签 ,例如 < article > .< footer>、< header>、< nav>、 
< section >, 这些 标 签 表 达 了 一 定 的 语义 ,可 根据 语义 标签 快速 识别 各 分 块 的 内 容 , 这 
样 在 使 用 爬虫 获取 网 页 数据 时 可 以 更 高 效 。 

(2) 网 页 多 媒体 : HTML 5 引入 video .audio 元 素 使 网 页 多 媒体 的 引入 变 得 更 加 
便利 。video 元 素 支 持 Ogg、MP4、WebM 等 视频 格式 ,用 来 在 文档 中 和 对 入 视频 内 容 ; 
audio 元 素 支 持 Ogg Vorbis、MP3、WAYV 等 音频 格式 ,用 来 在 文档 中 能 人 音频 内 容 。 
利用 < video > 标签 直接 在 页 面 中 添加 一 个 MP4 视频 就 可 以 播放 ,不 依赖 Flash 插件 ， 
这 对 移动 端 网 页 多 媒体 的 使 用 也 十 分 便利 。 


< Vidceo src = "movie.mp4”controls = "controls"> 
</video > 


(3) HTML 5 添加 了 canvas 元 素 ,canvas 使 用 JavaScript 在 网 页 上 绘制 图 形 、 
动画 。 

(4) HTML 5 添加 了 地 理 位 置 API, 可 以 定位 当前 使 用 者 的 经 纬度 等 。 

(5) HTML 5 引入 了 应 用 程序 缓存 ,缓存 之 后 ,可 在 没有 网 络 连接 时 访问 网 页 ， 
同时 还 可 以 提高 页 面 加 载 速度 ,减少 服务 天 负载 。 
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2.2 编码 体系 与 规 汇 


网 页 编码 是 指 网 页 中 字符 的 编码 方式 。 目 前 国内 常见 的 网 页 字符 编码 主要 有 
utf-8、gbk、gb2312, 其 中 utf-8 为 国际 化 编码 ,在 各 国 各 地 区 的 网 站 中 都 很 常见 ,可 以 
说 是 最 通用 的 字符 编码 。 此 外 ,有 些 日 本 网 页 会 使 用 EUC-JP、SHIFT-JIS, 有 些 韩 匡 
网 页 会 使 用 EUC-KR 等 字符 编码 。 


2.2.1 ASCII 


ASCII(American Standard Code for Information Interchange, 美 国信 息 互 换 标 
准 代 码 ) 是 美国 在 20 世纪 60 年 代 制 定 的 一 套 字 从 编 公 标准 ,主要 用 于 显示 美式 瑞 
语 。 标 准 ASCII 码 使 用 7 位 二 进 制 编码 表示 美式 英 霹 中 会 使 用 到 的 控制 字符 (例如 
退 格 .空格 ) 以 及 可 打印 字符 (例如 数字 0 一 9 大 小 写 英 文字 母 、 标 点 符号 .运算 符号 、 
美元 符号 ) ,编码 范围 为 0 一 127( 二 进 制 00000000 一 01111111) 。 

ASCII 共 表 示 128 个 字符 ,每 个 字符 丘 一 个 字 节 ,其 中 控制 字符 共 33 个 。 例 如 
控制 字符 退 格 “backspace” 为 8( 二 进 制 00001000), 可 打印 字符 大 写字 母 “A” 为 65( 二 
进 制 01000001)。 


2.2.2 gb2312/gbk 


由 于 ASCII 编码 无 法 表示 中 文字 符 ,中国 在 ASCII 编码 的 基础 上 进行 扩展 ,形成 
了 中 文字 符 编 码 ,主要 有 gb2312 .gbk 以 及 gb18030。 


1. gb2312 


gb2312 编 但 人 《信息 交换 用 汉字 编 权 字符 集 妨 是 对 ASCII 的 中 文 扩展 ,编码 低 于 
127 的 字符 与 ASCII 编码 相同 。gb2312 使 用 两 个 字 节 连 在 一 起 表示 一 个 汉字 ,两 个 
字 节 中 前 一 个 称 为 高 字 节 ( 范 围 0xAl1 一 0xF7) ,后 一 个 称 为 低 字 节 ( 范 围 0xAl 一 
0xFE)。 其 编码 范围 是 0xA1A1 一 0xF7FE。 

gb2312 共 收 录 6763 个 汉字 ,每 个 汉字 占 两 个 字 节 。 同 时 ,gb2312 对 ASCII 中 的 
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可 打印 字符 重新 编 了 两 个 字 节 长 的 编码 ,也 就 是 人 们 常 说 的 “全 角 ” 字 符 ; 编码 低 于 
127 的 可 打印 字符 为 半角” 字符。 


2. gbk 


gbk 编 反 是 gb2312 的 扩展 ,gbk 菩 容 gb2312 的 所 有 内 容 并 且 又 增加 了 近 20 000 
个 新 的 汉字 (包括 索 体 字 ) 和 符号 。gbk 同样 使 用 两 个 字 太 表 不 一 个 汉字 ,只 要 第 一 
个 字 节 大 于 127, 便 认为 是 一 个 汉字 的 开始 。 其 编码 范围 是 0x8140 一 0xFEFE。 


2.2.3 unicode 


unicode( Universal Multiple-Octet Coded Character Set, 通 用 多 八 位 编码 字符 
集 ) 包 含 了 世界 上 所 有 的 文字 和 字符 ,在 unicode 字符 集中 每 个 字符 都 有 唯一 的 特定 
数 伸 。 例 如 大 写字 母 “A” 在 unicode 中 的 码 位 为 UU 十 0041, 汉 衬 “ 乐 ”的 码 位 为 U 十 
4E50。unicode 通常 使 用 两 个 宇 方 来 编 友 , 称 为 UCS-2 (Universal Character Set 
coded in 2 octets)。 为 了 使 unicode 能 表示 更 多 的 文字 ,人 们 提出 了 UCS-4, 使 用 4 个 

目前 unicode 编码 范围 为 0 一 0xl0FFFF ,最 大 的 字符 至 少 需要 3 个 字 太 来 表 示 。 
表示 字符 需要 的 字 广 数 不 相同 , 右 下 接 在 网 页 中 使 用 会 出 现 混 汪 问题; 如 条 规定 所 
有 的 字符 都 使 用 最 大 字 蔬 表示 ,会 造成 极 大 的 空间 良 费 。 为 了 解决 编码 字符 集 
unicode 在 网 页 中 使 用 的 效率 问题 ,人 们 提出 了 utf-8、utf-16 等 编码 方式 。 


2.2.4 utf-8 


utf-8(8-bit Unicode Transformation Format) 是 一 种 针对 unicode 字符 集 的 可 变 
长 度 刍 符 编 人 方式。utf-8 对 不 同 范 围 的 字符 使 用 不 同 长 度 的 编码 ,规则 如 下 : 

(1) unicode 但 点 在 0x00 一 0x7F 的 字符 ,utt8 编码 与 ASCII 编码 完全 相同 。 

(2) unicode 码 点 大 于 0x7F 的 字符 , 设 需要 使 用 ?个 字 记 来 表示 (2 二 1) ,第 一 个 
字 廊 的 前 7 位 午 设 为 1, 第 2 十 1 位 设 为 0, 剩 余 的 2 一 1 个 宇和 的 前 两 位 都 设 为 10 ,和 晋 
下 的 二 进 制 位 使 用 这 个 字符 的 unicode 人 码 点 来 填充 。 

表 2-2 展示 了 从 unicode 到 utf-8 的 编码 规则 。 
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表 2-2 从 nicode 到 utf-8 的 编码 规则 
unicode( 十 六 进 制 ) utf-8( 二 进 制 ) 字 节 数 


1 
Ox0080~0x07FF ll1Ox xxxx lO0xx xxxx 2 
Ox0800~0xFFFF 1110 xxxx lOxx xxxx lO0xx XxXxxx 3 

4 


Oxl0000~0xlFFFFF 1111 Oxxx lO0Oxx xxxx lO0xx xxxx lO0Oxx XXXX 


例如 , 码 点 为 U 十 4E50( 二 进 制 0100 1110 0101 0000) 的 汉字 “ 乐 ” 在 0x0800 一 
0xFFFF 范围 内 ,从 unicode 编码 到 utf-8 时 需要 使 用 3 个 字 节 ,utf-8 的 格式 为 1110 
xxxx 10xx xxxx 10xx xxxx。 将 其 unicode 码 点 的 二 进 制 填充 进去 为 1110 0100 1011 
1001 1001 0000(CO0xE4B990) 。 

值得 注意 的 是 ,Python 3 中 的 字符 串 默 认 的 编码 为 unicode, 因 此 gbk .gb2312 等 
字符 编码 与 utf-8 编码 之 间 必 须 通过 unicode 编码 才能 互相 转换 。 即 在 Python 中 使 
用 encode() 将 unicode 编码 为 utf-8、gbk 等 ,而 使 用 decode() 将 utf-8、gbk 等 字符 编 
人 码 解 码 为 unicode, 如 图 2-3 所 示 。 


decode () decode () 
Ea 
encode () encode () 


图 2-3 unicode 与 utf-8、gbk 之 间 的 转换 


需要 注意 的 是 在 Python 程序 中 ,这 些 编码 名 称 不 区 分 大 小 写 , 即 GBK .UTF-8、 
GB 2312 是 允许 的 。 同 时 ,utf-8 也 可 以 省 略 ”-”, 即 utf 8 也 是 允许 的 。 以 下 是 例子 。 


>>> mn= "大 数据 ， # unicode 

>>> g = n. encode( 'gbk') # gbk 

>>> u=n.encode('utf — 8') #9utf—8 

>>> g2 = n. encode( 'gb2312 ') gb2312 

>>> g2u= g. decode( gbk ).encode("utf—-8") # gbk 转 成 utf -8 


可 以 看 到 相应 的 结果 如 下 : 


>>> 可 

b'\xbA\xf3\xca\xfd\xbe\xdd' 

>>> 人 
b'\xe5\xa4\xa7\xe6\x95\xb0\xe6\x8d\xae!' 
>>> g2 

b'\xb4\xf3\xca\xfd\xbe\xdd' 

>>> gq2u 
b'\xe5\xa4\xa7\xe6\x95\xb0\xe6\x8d\xae' 
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g2u 是 utf-8 编码 ,由 gbk 编码 的 字符 串 转 换 过 来 ,在 这 个 过 程 中 需要 通过 
unicode 作为 中 则 环节 。 根 据 图 2-3, 先 decode() 为 unicode ,再 encode() 为 utf-8。 


2.2.5 网 页 中 的 编码 和 Python 处 理 


不 同 网 站 的 编码 并 不 完全 相同 ,在 候 虫 应 用 中 解析 文本 信息 的 时 候 需 要 考虑 网 页 
的 编码 方式 ,否则 获得 的 结果 可 能 是 乱码 。 可 以 从 网 页 源 代码 里 的 meta 标签 的 charset 
属性 中 看 到 其 编码 方式 ,例如 < meta charset 二 "utf-8"> 指 定 了 网 页 的 编码 为 utf-8。 

用 于 解析 文本 的 Python 库 主 要 有 BeautifulSoup。BeautifulSoup 使 用 编码 自动 
检测 字库 (unicodeDammit、chardet 等 ) 来 识别 输入 文档 的 编码 ,并 将 其 转换 成 
unicode 编码 ; 同时 ,BeautifulSoup 将 输出 文档 目 动 转换 成 utf-8 编码 。 值 得 注意 的 
是 ,编码 自动 检测 功能 会 搜索 整个 文本 来 检测 编码 ,时 间 成 本 高 ,检测 结果 也 可 能 会 
错误 。 因 此 ,如 果 预 先知 道 文档 编码 ,可 以 通过 在 创建 BeautifulSoup 对 象 的 时 候 设 
置 from_encoding 参数 来 减少 检测 错误 率 和 检测 时 间 。 


soup = BeautifulSoup(html input, from _ encoding = "gbk") 


比 外 ,可 以 使 用 prettify() 或 者 encode() 方 式 来 指定 输出 文档 的 编码 。 


soup. prettify("gb2312") 


目 动 检测 一 个 页 面 的 编码 方式 ,可 以 通过 chardet 包 来 进行 ,需要 事先 安装 。 具 
体 方 法 如 下 。 

import chardet 

import requests 


res = requests. get("http://www. fudan. edu. cn") 
cs = chardet. detect(res.content) “ 井 通 过 响应 信息 的 content 属性 来 判断 页 面 的 编码 方式 


chardet, detect() 的 检测 结果 是 一 个 字典 ,如 下 所 示 , 字 上 典 的 关键 字 包 仿 'encoding' 和 和 
'confidence' 等 ,其 中 ,前 者 的 值 就 是 页 面 编 公 , 后 者 表示 目 动 检测 时 对 结果 的 确信 和 度 [0,1j。 


{'encoding': 'utf ~ 8', 'confidence’': 1.0, 'language': ''} 


因此 ,可 以 通过 csl 'encoding ' | 来 得 到 页 面 编 码 。 
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2.3 Python 正则 表达 式 


视频 讲解 
网 络 疏 虫 的 一 个 基本 功能 是 根据 URL 进行 页 面 采集 ,因此 从 页 面 中 提取 URL 
是 爬虫 的 共性 技术 问题 。 由 于 超 链接 的 表示 通常 具有 固定 的 模式 ,所 以 在 具体 实现 
页 面 链接 提取 时 米 用 正则 表达 式 匹 配方 法 是 比较 侦 匈 的 方法 。 
在 Python 中 ,re 模块 提供 了 正则 表达 式 匹 配 所 需要 的 功能 。 在 使 用 该 模块 的 功 
能 之 前 要 先 import re。 该 模块 的 主要 功能 有 匹配 和 搜索 分割 字 符 串 匹配 和 替换 ，。 
在 此 主要 利用 其 匹配 和 搜索 ,最 入 用 的 消 数 是 findall() ,其 函数 原型 为 : 


findall(pattern, string[ ,flags]) 


其 中 ,string 为 输入 的 字符 串 ,pattern 是 指定 的 匹配 模式 ,flags 是 一 个 可 选 参 数 , 用 
于 表示 匹配 过 程 中 的 一 些 选 项 。 该 图 数 返 回 一 个 列表 。 
以 下 列 出 匹配 选项 和 匹配 模式 。 


1. flags( 不 同 标志 可 以 使 用 | 进行 组 合 ) 


。 re. IGNORECASE: 缩写 re.1, 表 示 忽 略 大 小 写 ; 

。 re. LOCALE: 缩写 re 二 ,表示 \w、\W、b、\B、Ns、S 与 本 地 字符 集 有 关 : 

。 re. MULTILINE: 缩写 re. M, 表 示 多 行 匹配 模式 

。 re. DOTALL: 缩写 re. S, 表 示 使 元 字符 也 匹配 换行 符 ; 

。 re. UNICODE: 缩写 re. U ,表示 匹配 unicode 字符; 

。 re. VERBOSE: 织 写 re. X, 表 示 忽 略 模式 中 的 空格 ,并 可 以 使 用 # 注 释 , 提 局 
可 读 性 。 


2. 常用 的 pattern 


匹配 模式 有 很 多 ,第 用 的 模式 及 其 匹配 效果 见 如 下 叙述 ,更 多 的 模式 可 以 通过 
help(re) 获 得 。 
: 通配符 ,代表 任意 字符 , 除 \n 以 外 ,一 个 点 一 个 字符 。 例 如 : 


ret = re.findall('m...e', "cat and mouse") #['mouse'] 


| 第 2 章 Web 页 面 及 相关 技术 
。'x* '; 重复 匹配 ,允许 * 之 前 的 一 个 字符 重复 多 次 。 例 如 : 
ret = re.findall('cax t', "caaaaat and mouse")  # ['caaaaat'] 
。'?': 也 是 重复 匹配 ,但 是 ?之 前 的 字符 只 能 重复 0 次 或 者 1 次。 例如 ， 


ret = re.findall('ca?t', "cat and mouse") 村 ['cat'] 
ret = re.findall('ca?t', "caaaaat and mouse")  # [], 无 匹配 


。 ' 十 ': 也 是 重复 匹配 ,但 是 至 少 重 复 1 次 ,不 能 是 0 次。 例如: 


ret = re.findall('ca+t', "caaaaat and mouse") #['caaaaat'] 


。'{}':; 也 是 重复 匹配 ,但 是 匹配 次 数 可 以 自行 设置 ,次 数 可 以 是 一 个 数 或 者 范 
围 。 例 如 : 


ret = re.findall('ca{5}t', "caaaaat and mouse") #5. | at"'| 


ret = re.findall('ca{l,S5}t', "caaaat catd mouse ) 并 1 5 次 ,[ "caaaat',， "cat"] 


。'[]': 定义 匹配 的 字符 范围 。 例 如 [azA-Z0-9] 表 示 相 应 位 置 的 字符 要 匹配 英 
文字 符 和 数字 ，'-' 表 示范 围 。 例 如 ; 


ret = re.findall('[0— 9]{1,5}', "12 cats and 6 mice") ##['12',，'61'] 


。"'!, 表示 必须 从 字符 串 的 起 始 位 置 开始 匹配 ,不 考虑 后 续 字 符 串 中 是 否 存 在 。 
例如 : 


ret = Te.findallf 人 nm...e'" "cat and mouse" ) 井 [] 


ret = re.findall('a.d$ ', "cat and mouse") 并 [] 


ret = re.findall('m...e$ ', "cat and mouse") 井 ['mouse'] 


*。 "1'; 两 个 模式 进行 或 的 匹配 。 例 如 : 


ret = re.findall('cat|mouse', "cat and mouse") 井 ['cat', 'mouse'] 
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。 改 ': 转 义 字符 ,如 果 字 符 串 中 有 特殊 字符 需要 匹配 ,就 需要 进行 转 义 。 这 些 特 
殊 字符 包括 . 、x 、?、 十.$“.[]、( | 一 、。 例 如 ， 


ret = Te tindallf ec 七 "cat mouse") 间 ["“cat'] 
ret = re,findall(\[..\]', "cat [and] mouse") #['[and]'] 


接 下 来 基于 这 些 痢 见 的 模式 从 HTML 文档 中 提取 超 链接 


s=''<1i><ahref = "http://news. sina. com. cn/o/2018 - 11 - 06/a75. shtml" target = "” blank"> 
进 博 会 </a > </1li ><1i><a href ="http://news. sina. com. cn/o0/2018 - 11 - 06/a76. shtml" 
target = " blank"> 大 数据 </a></1i>< 1i><a href = "http://news. sina. com. cn/o/2018 - 11 - 
06/a75. shtml”target = ”blank"> 进 博 会 </a></1i>"'"' 

re.findall("http://[a— zA- 20-9AM\.\-]*", s) 


可 以 得 到 结果 : 


[ 'http://news. sina. com. cn/o0/2018 - 11 - 06/a75. shtml', 'http://news. sina. com. cn/o0/2018 — 
11 — 06/a76. shtm]l', 'http://news. sina. com. cn/o0/2018 - 11 - 06/a75. shtm1'] 


1. HTML 语言 与 网 络 息 虫 之 间 是 什么 关系 ? 
2. 结合 实际 页面 ,说 明 <a>、<img>,<div>、<p>、< base > 标签 的 使 用 方法 及 


3. 为 什么 在 让 虫 程序 设计 中 需要 考虑 页 面 的 编码 ? 
4. 目前 有 哪些 常用 的 编码 方式 ? 它们 的 主要 区 别 是 什么 ? 
5. 学 习 使 用 re 库 , 并 从 实际 网 页 中 提取 超 链接 。 
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Web 应 用 架构 与 协议 


Web 服务 融和 存储 了 Web 页 面 , 按 照 一 定 的 方式 啊 应 客户 端的 请 求 。 理 解 Web 
服务 融 的 工作 原理 ,对 于 苞 握 和 设计 网 络 爬 虫 具 有 重要 和 意义。 本 章 人 向 述 了 Web 服务 
做 的 应 用 架构 ,重点 对 网 站 页 面 文件 的 组 织 与 内 容 生 成 .HTTP 协议 .状态 保持 技术 
以 及 Robots 协议 进行 了 详细 介绍 。 


3.1 常用 的 Web 服务 器 软件 


3.1.1 流行 的 Web 服务 器 软件 


常见 的 Web 服务 器 软件 有 Apache IIS(CInternet Information Server) 、Nginx、 
Lighttpd、Zeus、Resin、Tomcat 等 。 

Apache 是 使 用 范围 很 广 的 Web 服务 需 软 件 , 是 Apache 软件 基金 会 的 一 个 开放 
源 代 但 的 器 平 台 网 页 服务 硕 。 它 可 以 运行 在 几乎 所 有 主流 的 计算 机 平台 上 。Apache 
的 特点 是 简单 .速度 快 、 性 能 稳定 。 它 支持 基于 IP 或 者 域名 的 虚拟 主机 ,支持 代理 服 
务 器 , 文 持 安全 Socket 层 (SSL) 等 。 目 前 ,互联 网 网 站 主要 使 用 它 做 静态 资源 服务 
佑 ,也 可 以 做 代理 服务 侣 转发 请 求 , 同 时 结合 Tomcat 等 Servlet 容 从 处 理 JSP 等 动态 
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网 页 。Apache Web 服务 硕 软 件 的 网 站 稚 图 如 图 3-1 所 示 。 


if Welcomel - The Apache HTTP 基 十 


和 人》 CG QT 不 安全 | httpd.apache.org 国 廊 日 


APACHE ff 


HTTP SERVER PROJECT 


The Number One HTTP Server On The Internet 


Save the datel The Apache HTTP Server Project is an effort to develop and maintain an open-source HTTP 
FE a server for modern operating systems including UNIX and Windows. The goal of this project is 
Ns to provide a secure, efficient and extensible server that provides HTTP services in sync with 


s Downloadl the current HTTP standards. 


图 3-1 Apache Web 服务 器 软件 的 网 站 截图 


Nginx 是 一 个 高 性 能 的 HTTP 和 反 回 代理 服务 天 ,国内 使 用 Nginx 作为 Web 服 
务 帮 的 网 站 也 越 来 越 多 ,其 中 包括 新 瀛 博客 .网 易 新 闻 .搜狐 博客 等 门户 网 站 频道 ,在 
3 万 以 上 访问 次 数 的 高 并 发 环境 下 , Nginx 的 处 理 能 力 相 当 于 Apache 的 10 倍 。 
Nginx Web 服务 大 软 件 的 网 站 截图 如 图 3-2 所 示 。 


{3 nginx x 十 
和 所 人 已 加 不 安全 | nginx.org/en/ 


nginx 


Basic HTTP server features 
Other HTTP server features 
Mall proxy server features 
TCP/UDP proxy server features 
Architecture and scalability 
Tested OS and platforms 


nginx [engine x] is an HTTP and reverse proxy server, a mail proxy server, and a genernic TCP/UDP 
proxy server, originally wnitten by Igor Sysoev. For a long time, It has been running on many 
heavily loaded Russian sites Including Yandex Mail.Ru, VK, and Rambler. According to Netcraft, 
nginx served or proxied 26.13% busiest sites In February 2019. Here are some of the success 
stories: Dropbox, Netfltx, Wordpress.com, FastMail.FM. 


图 3-2 ”Nginx Web 服务 器 软件 的 网 站 截图 


IIS(Internet 信息 服务 ) 是 微软 公司 主推 的 Web 服务 硕 ,IIS 与 Windows Server 
完全 集成 在 一 起 ,因此 用 户 能 够 利用 Windows Server 和 NTFS 文件 系统 内 置 的 安全 
寺 性 建立 强大 、 灵 活 且 安全 的 Internet 和 Intranet 站 点 。IIS Web 服务 器 软件 的 网 站 
截图 如 图 3-3 所 示 。 
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Home: The Official Microsoft X + 


(> © https://www.iis.net 


Search all of IS,NET 
时 四 Microsoft 


I|IS Home Manage Downloads | earn Reference Solut 


A flexible & easy-to-manage web server... 


Internet Information Services (IIS) for Windows® Server Is a flexible, secure and manageable Web 
server for hosting anything on the Web. From media streaming to web applications, IS's scalable 


and open architecture Is ready to handle the most demanding tasks. 


Get Started with IIS Manage IIS 


图 3-3 JIS Web 服务 器 软件 的 网 站 截图 


Tomcat 是 Apache 软件 基金 会 的 Jakarta 项 目 中 的 一 个 核心 项 目 , 由 Apache、 
Sun 和 其 他 一 些 公司 及 个 人 共同 开发 。 因 为 Tomcat 技术 先进 ,性 能 稳定 ,而 且 人 免费 ， 
所 以 涤 受 Java 爱好 者 的 于 爱 ,并 得 到 了 部 分 软件 开发 疝 的 认可 ,是 目前 比较 流行 的 
Web 应 用 服务 器 。 图 3-4 是 Tomcat Web 服务 器 软件 的 网 站 截图 。 


nn 
图 Apache Tomcat® - Welcome! x 十 

CC 加 不 安全 | tomcat.apache.org 国 女 加 
一 一 Apache Tomcat® f APAcSHE 
Apache Tomcat 


The Apache Tomcat software is an open source implementation of the Java Servlet JavaServer Pages, Java Expression 
Language and java Websocket technologies. The java Servlet JavaServer Pages, Java Expression Language and |ava 
Websocket specifications are developed under the java Community Process， 


图 3-4 ” Tomcat Web 服务 融 软 件 的 网 站 截图 
3.1.2 在 Python 中 配置 Web 服务 器 


Python 3 提供 了 小 型 Web 服务 器 软件 的 功能 ,可 以 很 方便 地 进行 Web 页 面 的 
开发 和 测试 。 以 Windows 操作 系统 为 例 , 具 体 过 程 如 下 : 
(1) 通过 执行 cmd, 进 入 Windows 控制 台 。 
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(2) 切换 到 Web 服务 冀 的 虚拟 根 目录 ,也 就 是 存放 网 页 的 根 目 录 位 置 。 
(3) 执行 命令 


python 一 m http. server 端口 号 


以 下 是 一 个 例子 ,假设 虚拟 根 目录 是 下 :\xxx, 则 进入 控制 台 后 执行 以 下 命令 : 


C:\> e: 
FE:\> cd cx 
RE:\xxx> python 一 血 http. server 8080 


那么 ,启动 成 功 后 会 在 控制 台 显 示 : 
Serving HTTP on 0.0.0.0 port 8080 (http://0.0.0.0:8080/) ... 


之 后 ,可 以 在 训 览 豆 中 输入 http://localhost:8080/ 来 浏 贤 E:\xxx 中 的 页 面 和 文件 ， 
在 浏览 的 过 程 中 控制 台 默 认 地 会 输出 每 个 点 击 访问 记录 , 样 例如 下 : 


pag Ph 
et.0.0. 


0 - — [05/Nov/2019 15:43:32] "GET / HTTP/1.1" 200 - 
0 

T237 .0.0 
0 
0 


[05/Nov/2019 15:43:36] "GET /1. html HTTP/1.1" 200 — 
[05/Nov/2019 15:43:46] "GET /20. html HTTP/1.1" 200 — 
[05/Nov/2019 15:44:03] "GET /4. htm] HTTP/1.1" 200 — 
— — [05/Nov/2019 15:44:12] "GET /ch. txt HTTP/1.1" 200 — 


121.0.0. 
127.0.0 


下 
| 
| 


3.2 Web 服务 希 的 应 用 架构 


基于 Web 的 互联 网 应 用 都 离 不 开 Web 服务 善 ,在 门户 网 站 、 网 络 论坛 .电子 商 
务 网 站 等 典型 应 用 中 ,核心 部 件 都 是 Web 服务 器 。Web 服务 器 为 互联 网 用 户 提 
面 信息 访问 服务 ,基本 的 访问 方式 包括 浏览 信息 、 发 布 信息 等 形式 。 


3.2.1 典型 的 应 用 架构 


从 应 用 架构 的 角度 看 , Web 服务 带 与 客户 闪 构 成 一 种 Client/Server 的 技术 体 
系 。 在 实际 应 用 中 需要 考虑 网 站 内 容 的 可 管理 性 .网 站 的 并 发 能 力 ,容错 能 力 以 及 网 
站 的 可 维护 性 等 许多 问题 。 针 对 这 些 问 题 有 不 同 的 解决 方案 ,由 此 产生 出 不 同 的 应 
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用 架构 。4 种 典型 的 应 用 架构 描述 如 下 。 
1. Client/Server 


最 简单 的 Web 应 用 架构 是 单纯 的 Client/ Server 架构 , 它 也 是 其 他 架构 的 基础 ， 
如 图 3-5 所 示 。 其 中 ,客户 端 可 以 是 各 种 浏览 器 ,也 可 以 是 爬虫 程序 。 

在 这 个 架构 中 ,一 方面 ,Web 服务 器 作为 存储 器 ,各 种 HTML 文件 可 以 直接 存 
储 在 Web 服务 器 的 硬盘 上 ,根据 用 户 的 请 求情 况 再 访问 这 些 文件 ; 另 一 方面 , Web 
服务 器 也 是 一 个 执行 机 构 ,能 够 处 理 用 户 的 请 求 。 在 网 络 爬 虫 技术 中 ,这 种 应 用 以 构 
适用 于 静态 网 页 的 处 理 , 每 一 个 静态 网 页 对 应 硬盘 上 的 一 个 文件 。 


2, Client/Server/Database 


在 很 多 Web 应 用 中 ,并 不 能 简单 地 从 Web 服务 器 的 硬盘 上 读 取 HTML 文件 内 
容 推 送 给 用 户 ,而 是 需要 谈 取 后 台数 据 库 或 访问 其 他 服务 从。 相应 地 ,在 Web 应 用 
的 架构 中 就 必须 增加 数据 库 服务 条 , 如 图 3-6 所 示 。 


图 3-5 Client/Server 图 3-6 Client/Server/Database 


在 这 个 架构 中 ,Web 服务 器 上 的 HTML 文件 中 通常 存在 一 些 动态 脚本 ,这些 脚 
本 在 用 户 请 求 时 由 Web 服务 融 执行 。 在 执行 过 程 中 访问 数据 库 , 获 取 数 据 访 问 续 
,Web 服务 器 再 将 执行 结果 编码 成 HTML ,推送 给 客户 端 。 在 网 络 疏 虫 技 术 中 ,这 
种 架构 支持 了 动态 网 页 的 实现 。 也 就 是 说 ,网 页 中 的 主体 内 容 是 来 自 于 数据 库 或 其 
他 服务 器 ,而 不 是 直接 存在 Web 服务 器 的 HTML 文件 中 。 
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3. Web 服务 器 集群 


互联 网 Web 服务 器 提供 了 开放 式 服务 ,可 能 会 有 大 量 用 户 并 发 访问 的 情况 出 
现 。 在 这 种 情况 下 ,为 了 保证 用 户 访问 的 体验 度 和 容错 性 , Web 服务 器 通常 需要 进行 
高 可 用 和 负载 均衡 设计 。 

负载 均衡 就 是 根据 某 种 任务 均衡 策略 把 客户 端 请 求 分 发 到 集群 中 的 每 一 台 服务 
器 上 ,让 整个 服务 器 群 来 均衡 地 处 理 网 站 请 求 。 因 此 集群 是 这 种 应 用 架构 的 典型 特 
征 和 核心 之 一 ,通常 用 多 台 Web 服务 器 构成 一 个 松 耦 合 系统 ,这 些 服务 器 之 间 通 过 
网 络 通信 实现 相互 协作 ,共同 承载 所 有 客户 端的 请 求 压力 。 如 图 3-7 所 示 的 应 用 架 
构 就 是 这 种 集群 架构 ,整个 集群 对 外 来 看 是 一 台 Web 服务 器 。 


qh < 


负载 均衡 ( 备 ) 


Web 服 务 胡 


客户 端 
图 3-7 Web 服务 骼 集群 
在 这 种 架构 中 ,网 络 疏 虫 每 次 连接 到 网 站 的 IP 地 址 可 能 并 不 是 固定 的 ,因此 如 
果 网 络 息 虫 进行 了 DNS 缓存 优化 设计 ,了 就 应 当 考 虑 到 Web 服务 大 集群 的 这 种 具体 
情况 。 


4. 虚拟 主机 


虚拟 主机 是 男 一 种 常见 的 Web 应 用 架构 , 它 是 指 在 一 台 服 务 顺 里 配置 多 个 网 
站 ,使 得 每 个 网 站 看 起 来 具有 独立 的 物理 计算 机 。 虚 拟 主 机 的 实现 方法 有 以 下 
3 种 。 

(1) 基于 IP 地址 的 方法 : 在 服务 天 里 绑 定 多 个 IP, 配 置 Web 服务 需 , 把 网 站 绑 
定 在 不 同 的 IP 上。 当 客 户 端 或 念 虫 访问 不 同 的 IP 地 址 时 就 得 到 不 同 网 站 的 啊 应 。 
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(2) 基于 端口 的 方法 : 不 同 网 站 共享 一 个 IP 地 址 ,但 是 通过 不 同 的 端口 实现 对 
不 同 网 站 的 访问 。 这 时 客户 端 访问 的 URL 的 形式 为 "http://hostname:port/”, 需 于 
旧 定 端口 。 

(3) 基于 主机 名 的 方法 : 设置 DNS 将 多 个 域名 解析 到 同一 个 IP 地 址 上 ,IP 地 址 
对 应 的 服务 右上 配置 Web 服务 端 ,添加 多 个 网 站 ,为 每 个 网 站 设 定 一 个 主机 名 。 

为 HTTP 协议 访问 请 求 头 里 包含 有 主机 名 ( 即 host 属性 ) 信 息 , 所 以 当 Web 服务 各 
收 到 访问 请 求 时 就 可 以 根据 不 同 的 主机 名 来 访问 不 同 的 网 站 。 


3.2.2 Web 页 面 的 类 型 


从 Web 网 页 的 组 成 结构 看 ,一 个 标准 的 网 页 一 般 包 含 4 个 部 分 , 即 内 容 、 结 构 、 
表现 效果 和 行为 。 内 容 是 网 页 中 直接 传达 给 阅读 者 的 信息 ,包括 文本 、 数 据 、 图 片 、 
音 / 视 频 等 ; 结构 是 指 Web 页 面 的 布局 ,对 内 容 进 行 分 类 使 之 更 具有 逻辑 性 ,符合 用 
户 的 浏览 习惯 ; 表现 效果 指 对 已 经 结构 化 的 内 容 进 行 视 觉 感官 上 的 泻 染 ,例如 字体 、 
颜色 等 ; 行为 则 是 指 网 页 内 容 的 生成 方式 。 

根据 Web 页 面 组 成 结构 中 的 信息 内 容 的 生成 方式 ,可 以 将 Web 页 面 分 为 静态 
页 面 .动态 页 面 、 伪 静态 页 面 三 大 类 。 静 态 型 的 Web 页 面 随 着 互联 网 的 出 现 而 出 现 ， 
虽然 目前 有 大 量 的 交互 式 动态 页 面 能 很 好 地 提升 用 户 体 验 , 但 是 由 于 静态 页 面 除了 
Web 服务 之 外 ,不 需要 其 他 服务 的 支持 ,对 服务 器 的 资源 消耗 少 , 所 以 这 种 类 型 的 页 
面 在 现 阶段 仍然 被 广泛 使 用 。 动 态 型 页 面 一 般 需 要 数据 库 等 其 他 计算 、 存 储 服 务 的 
支持 ,因此 需要 消耗 更 多 的 服务 端 资源 。Web 服务 器 在 响应 息 虫 命令 请 求 时 ,不 管 是 
静态 页 面 还 是 动态 页 面 , 服 务 需 返回 给 朴 虫 的 信息 一 般 都 是 封装 成 为 HTML 格式 。 
因此 ,对 于 页 面 解析 融 而 言 , 在 处 理 Web 服务 硕 啊 应 信息 时 ,只 要 处 理 HTML 格式 
的 内 容 就 可 以 。 

静态 页 面 以 HTML 文件 的 形式 存在 于 Web 服务 器 的 硬盘 上 ,其 内 容 和 最 终 显 
示 效 果 是 事先 设计 好 的 ,在 环境 配置 相同 的 终端 上 的 显示 效果 是 一 致 的 ,并 且 这 些 内 
容 .表现 效果 等 由 且 仅 由 日 TML、JavaScript、CSS 等 语言 控制 。 因 此 ,静态 页 面 的 内 
容 .结构 和 表现 效果 是 固定 的 ,其 行为 也 比较 简单 , 即 在 制作 网 页 时 直接 保存 到 硬盘 
os 
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从 实际 应 用 的 角度 看 ,目前 互联 网 上 大 部 分 都 是 动态 页 面 。 动 态 页 面 是 相对 钥 
态 页 面 而 言 的 ,具有 了 明显 的 交互 性 ,能 根据 用 户 的 要 求 和 选择 动态 改变 。 动 态 页 面 的 
主要 特征 如 下 : 

(1) 页 面 内 容 是 可 变 的 ,不 同人 ,不同 时间 访 问 页 面 时 ,显示 的 内 容 可 能 不 同 。 

(2) 页 面 结构 也 是 允许 变化 的 ,但 是 为 了 提升 用 户 浏 览 的 体验 ,结构 一 般 不 会 频 

(3) 在 表现 效果 上 ,页 面 中 不 同 部 分 的 效果 会 随 看 内 容 的 变化 而 变化 。 

(4) 页 面 行为 是 区 别 于 静态 页 面 最 主要 的 特征 ,动态 页 面 并 不 是 直接 把 内 容 存 
储 到 文件 中 ,而 是 要 进一步 执行 内 容 生 成 步骤 ,通常 的 方式 有 访问 数据 库 等 。 

除了 静态 页 面 和 动态 页 面 外 ,还 有 一 类 页 面 称 为 伪 静 态 页 面 ,这 种 页 面 的 出 现 是 
为 了 增强 搜索 引擎 候 虫 的 友好 界面 。 伪 静态 页 面 是 以 蒂 态 页 面 展现 出 来 ,但 实际 上 
是 用 动态 脚本 来 处 理 的 。 为 了 达到 这 个 目的 , 伪 静 态 页 面 技 术 通 常 采 用 404 错误 
理 机 制 或 rewrite 技术 来 实现 将 静态 的 URL 页 面 请 求 转换 成 内 部 的 动态 访问 ,再 将 
结果 以 同样 的 URL 返回 给 用 户 。 

伪 静 态 页 面 的 URL 本 质 上 可 以 理解 成 不 市 “= ?的 参数 ,是 将 参数 转换 成 为 
URL 中 子 目 录 的 一 部 分 。 例 如 , 某 论 坛 中 同一 个 帖子 的 伪 静 态 页 面 地 址 及 其 对 应 的 
动态 页 面 地 址 分 别 如 下 : 


http:// xxxx .com/htm data/7/1985527. html 
http:// xxxx .com/read. php?fid = 7Stid = 1985527 


其 中 , 伪 静 态 页 面 的 htm_ data 后面 的 7 以 及 1985527 分 别 与 动态 页 面 地 址 的 
fid 王 7 和 tid 二 1985527 对 应 。 当 服务 器 收 到 伪 静 态 页 面 的 URL 地 址 请 求 后 提取 出 
URL 中 相应 的 部 分 ,并 作为 动态 参数 构造 动态 请 求 , 在 执行 完成 后 将 结果 返回 给 
客户 端 。 


3.2.3 页 面 文件 的 组 织 方 式 


大 量 的 Web 页 面 文件 在 Web 服务 硕 中 的 组 织 管理 方式 对 于 提升 页 面 的 可 维护 
性 是 非常 重要 的 。 下 面 以 Tomcat 为 例 来 说 明 服务 需 的 页 面 文件 管理 方式 。 

如 图 3-8 所 示 ,在 D 盘 的 Tomcat 安 冯 目录 下 有 子 目 录 webapps, 该 子 目 录 是 
Tomeat 规定 的 虚拟 根 目 录 。 在 该 子 目 录 下 有 aaa 和 bbb 两 个 子 目 录 , 而 aaa 下 还 有 
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一 个 子 目 录 images。 其 中 ,aaa 下 有 两 个 文件 al.html 和 a2. html,bbb 下 有 一 个 文件 
bl. html,images 子 目 录 下 有 3 个 文件 ,分 别 为 pl. gif、p2. gif、p3. gif。 
假设 按照 Tomcat 的 默认 端口 8080, 那 么 在 浏览 可 中 访问 al. html 的 URL 是 : 


http://127.0.0.1:8080/aaa/al. html] 


其 相应 的 结果 如 图 3-9 所 示 , 页 面 中 的 图 片 在 al. html 中 是 通过 < img src 一 
"images/pl. gif "> 来 获得 。 这 里 的 ”images/pl. gif” 就 表示 在 当前 目录 中 访问 images 
子 目 录 下 的 pl. gf, 而 由 于 当前 访问 的 是 al. html 文件 ,当前 目录 就 是 aaa。 


4 BE 本 地 磁盘 (DD:) 
a apache-tomcat-7.0.54 
bin 


bh conf 网 al x + 
出 Iib 


, ee 3 @ © 127.0.0.1:8080/aaa/al.html 
nh logs 


temp Pp 

4 ) webapps 

.i aaa 疾 
images 

Bn bbb 


图 3-8 ”Tomcat 的 目录 结构 图 3-9_ al. html 的 访问 方式 及 效果 


下 面 的 HTML 代码 则 展示 了 al. html 页 面 中 超 链接 的 3 种 写法 ,分 别 介 绍 
如 下 。 

(1) <p><imeg src 一 "Images/pl. gif > <a hre{f="a2. html"> a2 </a></p> 

采用 相对 链接 ,访问 a2. html。 

(2) <p><img src= "images/p2. gif"> <a href="..\bbb\bl. html"> bl </a></p> 

采用 相对 链接 ,访问 bl. html,. .表示 上 级 目录 ,此 处 即 为 虚拟 根 目录 。 

(3) <p><imsg src 一 "images/p3. gif"> <a href= "http;//127. 0.0.1:;8080/bbb/ 


bl. html"> bl </a></p> 

采用 以 http 开始 的 完整 URL 绝对 链接 ,访问 bl. html。 

从 这 个 例子 可 以 看 出 ,对 于 有 息 忠 来 说 ,在 获取 al. html 页 面 之 后 要 寻找 其 中 的 
href 超 链 接 。 对 于 绝对 链接 ,只 需要 把 “href 二 ”后 面 的 字符 串 提 取出 来 即 可 ; 而 对 于 
相对 链接 ,没有 完整 的 http ,单纯 从 这 个 href 所 指定 的 链接 无 法 知道 其 真正 的 结果 ， 
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为 了 简化 相对 路 径 的 转换 ,在 HTML 语言 中 提供 了 < base > 标签 ,用 来 指定 页 
中 所 有 超 链接 的 基准 路 径 。 例 如 ,如 果 在 al. html 中 增加 如 下 < base > 标签 : 


< base href = "http://127.0.0.1:8080/aaa/" /> 


那么 就 意味 着 该 文件 中 的 所 有 超 链 接 都 以 根 目录 下 的 aaa 子 目录 为 当前 目录 。 因 此 
作为 息 虫 程序 ,也 应 当 检 查 HTML 文档 中 是 否 存 在 < base > 标签 。 


3.3 Robots 协议 


视频 讲解 


3.3.1 Robots 协议 的 来 历 


普通 的 Web 网 站 提供 了 开放 式 的 空间 ,用 户 只 要 通过 浏览 右 即 可 直接 访问 ,大 
部 分 新 闻 网 站 机构 主页 都 属于 这 种 形式 。 另 一 种 Web 网 站 页 面 则 提供 有 限 的 开放 
式 空 间 , 需 要 经 过 身份 识别 后 进一步 访问 更 多 页 面 信 息 , 最 常用 的 方法 是 要 求 用 户 输 
和 人 用户 名 和 口令 信息 ,验证 通过 后 访问 Web 页 面 。 这 种 Web 网 站 典型 的 是 在 线 购 


物 、 社 交 媒 体 等 网 站 中 的 个 人 相关 信息 页 面 。 
对 于 搜索 引擎 爬虫 而 言 ,可 以 畅通 无 阻 地 采集 第 一 种 形式 的 Web 页 面 , 也 可 以 
在 适当 配置 后 以 动态 页 面 的 方式 访问 第 二 种 类 型 页 面 。 因 此 不 管 哪 种 类 型 的 Web 


页 面 最 终 都 可 以 被 搜索 引擎 收录 而 永久 存储 ,并 提供 给 用 户 任 意 搜 索 。 这 个 结果 
在 一 定 程度 上 增加 了 网 站 被 其 他 人 了 解 的 可 能 性 ,为 网 站 带 来 一 定 的 流量 增加 。 
但 是 另 一 方面 , 某 些 页 面 可 能 是 临时 性 的 ,或 者 不 希望 永久 地 存储 于 搜索 引 
擎 中 。 

为 了 给 Web 网 站 提供 灵活 的 控制 方式 来 决定 页 面 是 否 能 够 被 爬虫 采集 ,1994 年 
搜索 行业 正式 发 布 了 一 份 行 业 规 范 , 即 Robots 协议 。Robots 协议 又 称 为 聆 虫 协议 、 
机 器 人 协议 等 ,其 全 称 是 Robots Exclusion Protocol, 即 “网 络 疏 虫 排除 协议 ”。 
协议 几乎 被 所 有 的 搜索 引擎 采纳 ,包括 Google.Bing .百度 .搜狗 等 公司 。 随 着 互联 网 
大 数据 时 代 的 到 来 ,目前 互联 网 上 除了 搜索 引擎 的 聆 虫 外 还 存在 大 量 的 非 搜索 引擎 
候 虫 ,该 协议 也 就 成 为 各 类 有 候 虫 行为 的 行业 规范 。 


| 第 3 章 “Web 应 用 架构 与 协议 


3.3.2 Robots 协议 的 规范 与 实现 


网 站 通过 Robots 协议 告诉 爬虫 哪些 页 面 可 以 抓 取 , 哪 些 页面 不 能 抓 取 。 该 协议 
指定 了 有 茶 种 标识 的 爬虫 能 够 抓 取 的 目录 或 不 能 抓 取 的 目录 ,也 就 是 访问 许可 宁 略 。 
这 些 访问 许可 的 定义 写 在 一 个 名 称 为 robots. txt 的 文件 中 ,该 文件 需要 放 在 网 站 的 
虚拟 根 目 录 中 。 它 可 以 公开 访问 , 即 在 浏 览 硕 中 打开 网 站 后 ,在 网 站 首页 的 地 址 后 面 
添加 “/robots. txt”, 如果 网 站 设置 了 访问 许可 , 按 回 车 就 可 以 看 到 网 站 的 Robots 协 
议 , 即 robots. txt 文件 的 内 容 。 

robots. txt 文件 的 具体 约定 如 下 : 

(1) 文件 中 包含 一 个 或 多 个 记录 ,每 个 记录 由 一 个 或 多 个 空 日 行 隔 开 。 每 个 记 
录 由 多 行 组 成 ,每 行 的 形式 为 : 


< field>:< optionalspace >< value>< optionalspace> 


指出 了 每 个 字段 及 其 对 应 的 值 。 字 段 名 有 User-Agent、Disallow、Allow, 每 个 记录 就 
是 由 这 些 关 键 词 来 规定 疏 虫 的 访问 许可 。 

在 一 个 记录 中 可 以 有 多 个 User-Agent、 多 个 Disallow 或 Allow。 

(2) User-Agent: User-Agent 的 使 用 方式 是 User-Agent [agent _name| ,其 中 
agent_name 有 两 种 典型 形式 , 即 * 和 具体 的 候 虫 标识 。 例 如 : 


User—Agent: * 表示 所 定义 的 访问 许可 适用 于 所 有 有 息 虫 
User—Agent: Baiduspider 表示 所 定义 的 访问 许可 适用 于 标识 为 Baiduspider 的 爬虫 


一 些 第 见 的 息 虫 标识 有 Baiduspider、Baiduspider-image、Baiduspider-news、 
Ce ee eM 
以 看 出 爬虫 是 属于 哪个 公司 的 。 这 些 标 识 是 爬虫 目 己 确定 的 ,并 对 外 公开 ,例如 百度 
的 爬虫 可 以 在 “http:/ /baidu. com/search/spider. htm” 查 到 ， 

(3) Disallow 或 Allow: Disallow 和 Allow 的 使 用 方法 相同 ,只 是 决定 了 不 同 的 访问 
许可 。 这 种 访问 许可 是 针对 目录 、 文 件 或 页 面 而 言 , 即 允许 或 不 允许 访问 。Robots 协议 
的 默认 规则 是 ,一 个 目录 如 条 没有 显 式 声明 为 Disallow, 它 是 允许 访问 的 。 

下 面 以 Disallow 为 例 进 行 说 明 。 


ee 
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Disallow 的 典型 写法 如 下 : 


Disallow:/ 
Disallow: /homepage/ 


Disallow:/login. php 


Disallow 指定 的 字段 值 可 以 是 一 个 全 路 人 径 , 也 可 以 是 部 分 路 径 , 任 何以 该 字段 值 
开始 的 URL 部 会 被 认为 是 不 允许 访问 的 ,例如 “Disallow:/help” 就 缠 含 者 不 允许 访 
问 “/help. html” 和 “/help/index. html” 等 ,而 “Disallow:/help/” 不 会 限制 对 “/help. 
html” 的 访问 ,但 是 对 “/help/index. html” 是 限制 访问 的 。 

接 下 来 看 一 些 典 型 的 例子 。 

(1) https://www. taobao. com/robots. txt 

摘录 两 个 记录 ,分 别 表示 该 网 站 对 Bingbot 和 360Spider 的 访问 许可 。 可 以 看 
出 ,对 于 前 者 ,除了 8 个 许可 访问 外 ,其 他 部 是 不 允许 抓 取 的 ; 而 对 于 360Spider, 只 有 
3 个 许可 访问 。 


User -~ Agent: Bingbot 
Allow: /article 
Allow: /oshtml 

Allow: /product 
Allow: /spu 

Allow: /dianpu 
Allow: /oversea 
Allow: /list 

Allow: /ershou 
Disallow:/ 


User ~—Agent: 360Spider 
Allow: /article 

Allow: /oshtm]l 

Allow: /ershou 
Disallow:/ 


(2) https://www. baidu. com/robots. txt 

摘录 最 后 3 个 记录 ,前 两 个 分 别 表示 该 网 站 对 yisouspider 和 EasouSpider 的 访 
问 许 可 。 可 以 看 出 ,除了 8 个 不 允许 访问 外 ,其 他 没有 写 的 目录 祁 是 允许 抓 取 的 。 基 
后 一 个 记录 示 示 除了 前 面 定 义 的 爬虫 外 ,其 他 压 虫 不 允许 访问 整个 网 站 。 
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User —Agent: yisouspider 
Disallow: /baidu 
Disallow:/s? 

Disallow: /shifen/ 
Disallow: /homepage/ 
Disallow: /cpro 

Disallow: /ulink? 
Disallow: /link? 

Disallow: /home/news/data/ 


User -Agent: EasouSpider 
Disallow: /baidu 
Disallow:/s? 

Disallow: /shifen/ 
Disallow: /homepage/ 
Disallow: /cpro 

Disallow: /ulink? 
Disallow: /link? 

Disallow: /home/news/data/ 


User—Agent: * 
Disallow:/ 


(3) http://www. xinhuanet. com/ robots. txt 
新 华 网 的 robots. txt 文件 非常 简单 ,可 以 看 出 , 它 允 许 所 有 的 爬虫 抓 取 该 网 站 的 
所 有 页 面 。 实 际 上 ,这 种 做 法 等 同 于 网 站 根 目 录 下 没有 robots. txt 文件 。 


# robots. txt for http://www.xinhuanet.com/ 


User ~—Agent: * 
Allow:/ 


由 此 可 见 ,Robots 协议 通过 Allow 与 Disallow 的 搭配 使 用 ,对 疏 虫 的 抓 取 实 行 
限制 或 放行 。 如 果 网 站 大 部 分 是 不 允许 爬虫 抓 取 的 , 则 可 以 像 淘 宝 一 样 ,定义 允许 访 
问 的 模式 ,其 他 的 则 不 允许 。 反 之 ,如 果 大 部 分 是 允许 抓 取 的 , 则 可 以 参考 百度 的 做 
法 , 显 式 定义 不 允许 访问 的 模式 。 结 合 自己 网 站 的 结构 ,选择 合适 的 编写 方法 能 够 简 
化 robots. txt 文件 。 例 如 某 个 网 站 的 根 目 录 下 有 al、a2、…、al0 子 目 录 , 只 人 允许 疏 虫 
抓 取 al0 子 目 录 , 按 照 前 面 的 叙述 ,写成 下 表 左 边 的 形式 就 比 右边 的 形式 要 简洁 
得 多 。 
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User—Agent: * User 一 Agent : * 
Allow:/al0/ Disallow:/all/ 
Disallow: /a Disallow: /a2/ 
Disallow: /a3/ 
Disallow:/a4/ 
Disallow: /a5/ 
Disallow: /a6/ 
Disallow: /a7/ 
Disallow: /a8/ 
Disallow: /a9/ 


上 述 基 本 功能 及 书写 方式 得 到 了 大 部 分 搜索 引擎 息 虫 的 支持 , 除 此 以 外 ,还 有 一 
些 拓 展 功能 。 昌 然 它 们 的 普及 性 还 不 是 很 广 ,但 是 随 厦 行业 规范 意识 的 增强 ,在 编写 
爬虫 程序 时 了 解 这 些 拓展 功能 ,对 于 说 计 更 加 友好 的 爬虫 是 非常 有 益 的 。 这 些 拓 展 
功能 主要 有 通 配 从 的 使 用 、 抓 取 延 时 、 访 问 时 段 \ 抓 取 频 率 和 Robots 版 本 号 。 

(1) 通配符 的 使 用 : Robots 中 的 许可 记录 人 允许 使 用 通配符 来 表示 Disallow 或 
Allow 的 范围 。 这 些 通配符 包括 关 、$ ,需要 注意 的 是 问号 (?) 并 不 作为 一 个 通配符 。 
通配符 * 代表 0 个 或 多 个 任意 字符 (包括 0 个 )。$ 表 示 行 结束 符 , 用 来 表示 至 此 结 
束 , 后 面 不 跟 其 他 任何 字符 。 

它们 的 售 义 举例 说 明 如 下 : 


Disallow: /pop/ * .html 

表示 不 允许 爬虫 访问 /pop/ 目录 下 任何 扩展 名 为 .html 的 文件 。 
Disallow:/privatex / 

表示 不 允许 访问 以 private 开头 的 所 有 子 目 录 。 


Disallow:/ x .asps 


表示 不 允许 访问 以 . asp 结尾 的 文件 ,这 就 排除 了 以 .aspx 结 尾 的 文件 。 
(2) 抓 取 延 时 : 规定 爬虫 程序 两 次 访问 网 站 的 最 小 时 间 延 时 (以 秒 为 单位 ) ,实际 
上 就 是 规定 了 疏 虫 页 面 抓 取 的 最 高 请 求 频 率 。 使 用 方法 如 下 : 


Crawl — delay: 10 
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两 次 访问 网 站 的 最 小 时 间 延 时 为 10 秒 。 
(3) 访问 时 段 : 茶 些 网 站 可 能 存在 业务 高 峰 期 ,为 了 使 服务 豆 将 更 多 资源 分 配给 
它 的 用 户 ,不 希望 候 虫 来 抓 取 数 据 。 这 时 可 以 在 许可 记录 中 增加 一 行 : 


Visit — timée: 0100— 0500 


表示 人 允许 人 息 虫 在 次 晨 1:00 到 5:00 访问 网 站 ,其 他 时 间 段 不 允许 访问 。 
(4) 抓 取 频率 : 这 是 用 来 限定 URL 读 取 频率 的 一 个 选项 ,使 用 方法 如 下 : 


Request - rate: 40/1m 0100 - 0759 


表示 在 1:00 到 07:59 之 间 , 以 不 超过 每 分 钟 40 次 的 频率 进行 访问 。 

(5) Robots 版 本 号 : 用 来 指定 Robots 协议 的 版 本 号 ,也 就 是 编写 robots. txt 文 
件 时 末 守 的 Robots 协议 版 本 。 虽 然 版 本 号 只 是 一 个 选项 ,但 是 如 有 果 增 加 这 个 字段 ， 
就 会 让 候 虫 程序 在 解析 robots. txt 文件 时 更 加 方便 。 


Robot — version: Version 2.0 


出 了 所 使 用 的 版 本 为 2.0。 

目前 ,上 述 拓 展 功 能 在 各 网 站 中 的 使 用 还 不 流行 ,一 个 例子 是 知 平 的 robots 
(https://www. zhihu. com/robots. txt), 其 针对 EasouSpider 的 约定 就 包含 了 
Request-rate、Crawl-delay, 也 使 用 了 通配符 。 


User ~ agent: EasouSpider 
Request - rate: 1/2 # load 1 page per 2 seconds 
Crawl ~ delay: 10 
Disallow: /login 
Disallow: /logout 
Disallow: /resetpassword 
Disallow: /terms 
Disallow: /search 
Disallow: /notifications 
Disallow: /settings 
Disallow: /inbox 
Disallow: /admin inbox 
Disallow: /* ?guide* 
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3.4 HTTP 协议 


ee 

超 文本 传输 协议 (Hyper Text Transfer Protocol, HTTP) 是 互联 网 上 使 用 最 为 

广泛 的 一 种 网 络 协议 ,所 有 的 WWW 文件 都 必须 遵守 这 个 标准 。HTTP 是 基于 

TCP/IP 协议 的 应 用 层 协 议 , 采 用 请 求 / 啊 应 模型 。 通 过 使 用 Web 浏览 硕 、 网 络 爬 虫 

或 其 他 工具 ,客户 疹 回 服务 器 上 的 指定 端口 (默认 端口 为 80) 发 送 一 个 HTTP 请 求 ， 
服务 天 根据 接收 到 的 请 求 回 客 户 端 发 送 啊 应 信息 。 


3.4.1 HTTP 版 本 的 技术 特性 


自 1991 年 第 一 个 版 本 的 HTTP 协议 HTTP 0. 9 正式 提出 以 来 ,HTTP 协议 已 
经 经 过 了 3 个 版 本 的 演化 ,目前 大 部 分 网 页 使 用 HTTP 1. 1 作为 主要 的 网 络 通信 
协议 。 


1. HTTP 0. 9 


HTTP 0. 9 是 第 一 个 版 本 的 HTTP 协议 ,发 布 于 1991 年 。HTTP 0.9 只 人 允许 客 
户 病 发 送 GET 这 一 种 请 求 , 不 文 持 请 求 头 ,因此 客户 端 无 法 回 服务 硕 端 传递 太 多 
消息 。 

该 协议 规定 服务 器 只 能 响应 HTML 格式 的 字符 串 , 即 纯 文 本 ,不 能 啊 应 其 他 的 
格式 ,该 协议 只 用 于 用 户 传 输 HTML 文档 。 服 务 副 啊 应 后 ,TCP 网 络 连 接 就 会 关 
闭 。 如 果 请 求 的 网 页 不 存在 ,服务 需 也 不 会 返回 任何 错误 但 。 


2. HTTP 1.0 


1996 年 ,HTTP 协议 的 第 二 个 版 本 HTTP 1.0 发 布 。HTTP 1.0 是 以 HTTP 0.9 
为 基础 发 展 起 来 的 ,并 且 在 HTTP 0.9 的 基础 上 增加 了 许多 新 的 内 容 。 

(1) HTTP 1.0 增加 了 请 求 方法 。HTTP 1.0 支持 GET .POST 、HEAD 几 种 请 
求 方 法 ,每 种 方法 规定 的 客户 端 与 服务 需 之 间 通 信 的 类 型 不 同 。 

(2) HTTP 1.0 扩大 了 可 处 理 的 数据 类 型 ,引入 了 MIME(Multipurpose Internet 
Mail Extensions) 机 制 ,除了 纯 文 本 之 外 ,还 可 以 传输 图 片 音频、 视频 等 多 媒体 数据 。 
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(3) 在 处 理 TCP 网 络 连 接 时 与 HTTP 0. 9 相似 ,但 HTTP 1.0 在 请 求 头 中 加 入 
了 Connection: keep-alive, 要 求 服 务 问 在 请 求 啊 应 后 不 要 关闭 TCP 连接 ,实现 TCP 
连接 复 用 ,可 以 避免 Web 页 面 资 源 请 求 时 重新 建立 TCP 连接 的 性 能 降低 。 


3. HTTP 1.1 


HTTP 1.1 是 目前 使 用 最 广泛 的 HTTP 协议 版 本 ,于 1997 年 发 布 。HTTP 1. 1 
与 之 前 的 版 本 相 比 ,改进 主要 集中 在 提高 性 能 .安全 性 以 及 数据 类 型 处 理 等 方面 。 

(1) 与 HTTP 1.0 最 大 的 区 别 在 于 ,HTTP 1. 1 默认 采用 持久 连接 。 客 户 端 不 
需要 在 请 求 头 中 特别 声明 (Connection :keep-alive) ,但 具体 实现 是 否 声 明 依 赖 于 浏览 
器 和 Web 服务器。 请 求 响应 结束 后 TCP 连接 默认 不 关闭 ,降低 了 建立 TCP 连接 所 
需 的 资源 和 时 间 消 耗 。 

(2) HTTP 1.1 文 持 管 道 (pipelining) 方 式 , 可 以 同时 发 送 多 个 请 求 。 在 发 送 请 
求 的 过 程 中 ,客户 端 不 需要 等 待 服务 需 对 前 一 个 请 求 的 啊 应 就 可 以 直接 发 送 下 一 
请 求 。 管 道 方式 增加 了 请 求 的 传输 速度 ,提高 了 HTTP 协议 的 效率 。 但 是 ,服务 需 
在 啊 应 时 必须 按照 接收 到 请 求 的 顺序 发 送 啊 应 ,以 保证 客户 端 收 到 正确 的 信息 

(3) HTTP 1.1 添 加 了 Host( 请 求 尖 ) 字 段 。 随 者 虚拟 主机 这 种 应 用 架构 技术 的 
发 展 ,在 一 台 物 理 服 务 硕 上 可 以 存在 多 个 虚拟 主机 ,这 些 虚 拟 主 机 共 于 一 个 IP 地 址 。 
HTTP 1. 1 在 请 求 头 中 加 入 Host( 请 求 头 ) 字 段 ,指出 要 访问 服务 器 上 的 哪个 网 站 。 


4. HTTP 2 


HTTP 2 于 2015 年 发 布 ,在 实现 与 HTTP 1. 1 完全 语义 兼容 的 基础 上 , 它 在 性 
能 上 和 实现 了 大 幅 提 升 , 但 尚未 真正 应 用 。 

(1) HTTP 2 允许 客户 端 与 服务 需 同 时 通过 同一 个 连接 发 送 多 重 请 求 / 啊 应 消 
县 ,实现 多 路 复 用 。HTTP 2 加 入 了 二 进 制 分 帧 层 ,HTTP 消 明 被 分 解 为 独立 的 帧 ， 
帧 可 以 交错 发 送 ,然后 再 根据 流标 识 符 在 接收 端 重新 拼 疫 ,使 得 HTTP 2 可 以 在 一 个 
TCP 连接 内 同时 发 送 请 求 和 啊 应 。 

(2) HTTP 2 压缩 大 量 重 复 的 首部 信息 ,提升 通信 效率 。HTTP 每 一 次 通信 都 
会 携 市 首部 , 当 一 个 客户 端 想 从 一 个 服务 天 请 求 许 多 资源 时 ,可 能 会 出 现 大 量 重 复 的 
请 求 头 信息 。 特 别 是 在 HTTP 1. 1 中 ,请 求 头 信息 以 纯 文 本 的 形式 发 送 , 大 量 重 复 的 
请 求 头 信息 重复 传输 对 网 络 运输 资源 的 消耗 很 大 。 
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3.4.2 HTTP 报 文 


HTTP 报 文 中 存在 着 多 行内 容 , 一 般 由 ASCII 码 串 组 成 ,各 字段 的 长 度 是 不 确 
定 的 。HTTP 报 文 可 分 为 两 种 , 即 请 求 报 文 和 响应 报 文 。 由 于 目前 大 部 分 网 站 使 用 
HTTP 1.1 或 HTTP 1.0 版 本 ,所 以 这 里 的 报 文 就 以 这 两 种 为 主 进行 介绍 
。 request Message( 请 求 报 文 ): 客户 疹 一 服务 需 问 ,由 客户 端 问 服务 需 闪 发 出 
请 求 ,用 于 向 网 站 请 求 不 同 的 资源 ,包括 HTML 文档 .图 片 等 。 

。 response Message( 啊 应 报 文 ): 服务 硕 问 一 客户 半 , 服 务 硕 啊 应 客户 病 的 请 求 
时 发 送 的 回应 报 文 ,可 以 是 HTML 文档 的 内 容 , 也 可 以 是 图 片 的 二 进 制 数 
据 等 。 

HTTP 1.1 的 请 求 报 文 和 啊 应 报 文 在 形式 上 与 HTTP 1.0 版 本 相同 ,只 是 
HTTP 1. 1 版 本 中 添加 了 一 些 头 部 来 扩充 HTTP 1.0 的 功能 。 因 此 ,本 节 中 关于 请 
求 报 文 和 响应 报 文 的 叙述 适用 于 HTTP 1.0, 也 适用 于 HTTP 1.1。 


1. 请 求 报 文 


HTTP 规定 请 求 报 文 由 起 始 行 . 头 部 (Cheaders) 以 及 实体 (Centity-body) 构成 。 
HTTP 规定 的 请 求 报 文 格式 如 下 。 


<method > < request - URL > < version> 
< headers > 


< entity— body > 


第 一 行 是 报 文 的 起 始 行 ,也 称 为 请 求 行 , 由 请 求 方 法 < method >、 请 求 URL 
<request-URL > .协议 版 本 < version > 构成 。HTTP 1.0 和 HTTP 1.1 支持 GET、 
POST、HEAD 几 种 请 求 方法 ,每 种 方法 规定 了 客户 问 与 服务 各 之 间 通 信和 的 类 型 。 

接 下 来 是 头 部 ,也 称 为 请 求 头 ,包含 了 客户 端 处 理 请 求 时 所 需要 的 信息 。 根 据 实 
际 需 要 ,请 求 头 可 以 是 多 行 的 形式 。 服 务 融 据 此 获取 客户 端 关 于 请 求 的 右 干 配置 参 
数 , 例 如 语言 种 类 信息 、 客 户 端 信息 .优先 级 等 内 容 。 头 部 本 质 来 说 是 包含 知 干 个 属 
性 的 列表 ,格式 为 “属性 名 :属性 值 ”。 例 如 “Accept-Language: zh-CN”, 将 zh-CN 值 
赋 给 Accept-Language 属性 ,表示 客户 端 可 接受 的 语言 为 简体 中 文 。 
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请 求 头 之 后 是 回 丰 换行 符 , 表 示 请 求 头 的 结束 。 
请 求 头 结束 标志 之 后 是 请 求 报 文 的 实体 < entity-body >, 也 称 为 请 求 体 ,是 传输 
的 内 容 构 成 。 请 求 体 通过 “param]1 二 valuel&param2 二 value2” 的 键 值 对 形式 将 要 传 
递 的 请 求 参数 ( 通 妆 是 一 个 页 面 表单 中 的 组 件 值 ) 编 码 成 一 个 格式 化 串 。 
下 面 是 一 个 向 服务 器 传递 name 和 password 参数 的 请 求 体 实例 。 


name = Jack&password = 1234 


值得 注意 的 是 ,在 使 用 GET 和 HEAD 方法 请 求 网 页 时 没有 请 求 体 。 其 请 求 参 
数 表现 在 请 求 行 ,附加 在 URL 后 面 ,使 用 %?” 来 表示 URL 的 结尾 和 请 求 参数 的 开始 。 
例如 下 面 的 命令 行 , 表 示 客 户 端 使 用 协议 HTTP 1.0 请 求 网 页 example. html, 请 求 
方法 为 GET。 

GET /example. htm1? name = Jack&password = 1234 HTTP/1.0 


User — AMgent: Mozilla/5.0 (Windows NT 10.0; WOW64) 
Accept: text/html 


这 种 方式 可 传递 的 参数 长 度 受 限 。HEAD 与 GET 方法 的 区 别 在 于 ,服务 器 端 


接收 到 HEAD 请 求 信 息 只 返回 啊 应 头 , 不 会 返回 响应 体 ; 而 使 用 POST 方法 请 求 
时 ,客户 端 给 服务 需 提 供 的 信息 较 多 ,其 请 求 数据 都 封闭 在 请 求 体 中 。 


2. 响应 报 文 


与 请 求 报 文 类 似 ,HTTP 啊 应 报 文 由 起 始 行头 部 (headers) 以 及 实体 (Centity- 
body) 构 成 。HTTP 1.0 和 HTTP 1. 1 规定 的 响应 报 文 格式 如 下 。 


< version>< Status >< reason ~ Phrase > 


< headers > 


< entity— body > 


与 请 求 报 文 的 区 别 在 于 第 一 行 , 请 求 报 文 的 起 始 行 也 称 为 啊 应 行 , 由 协议 版 本 、 
状态 码 . 原 因 短 语 构成 。 状 态 码 为 表示 网 页 服务 甫 HTTP 啊 应 状态 的 3 位 数字 , 客 
户 冰 或 爬虫 可 从 状态 码 中 得 到 服务 着 啊 应 状态 ,后 续 将 对 状态 人 码 进 行 详 细 介 绍 。 原 
因 短 请 为 状态 但 提供 了 文本 形式 的 解释 。 例 如 下 面 的 命令 为 服务 船 啊 应 行 ,以 “200 
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OK"” 结 束 ， 


表明 啊 应 操作 成 功 。 


HTTP 1.0 200 OK 


报 文 的 啊 应 行 之 后 是 啊 应 头 , 包 含 服 务 硕 啊 应 的 各 种 信息 ,其 结构 与 请 求 头 一 
致 , 都 是 “属性 名 :属性 值 ” 的 格式 。 

报 文 的 < entity-body > 部 分 是 响应 体 , 响 应 体 是 HTTP 要 传输 的 内 容 。 根 据 响应 
信息 的 不 同 , 啊 应 体 可 以 是 多 种 类 型 的 数据 ,例如 图 片 .视频 .CSS、 JS、HTML 页 面 或 
者 应 用 程序 等 。 如 果 客 户 端 请 求 的 是 HTML 页 面 , 则 响应 体 为 HTML 人 代码。 客户 
端 依 据 啊 应 头 中 Content-Type 的 属性 值 对 啊 应 体 进行 解析 ,如 果 属 性 值 与 响应 体 不 
对 应 ,客户 端 可 能 无 法 正常 解析 。 

以 下 是 一 个 啊 应 报 文 的 例子 , 表 


示 回 客户 疹 成 功 啊 应 了 text/plain 类 型 的 文本 。 


HTTP/1.0 200 OK 
Content - Type: text/plain 


<html> 


< body > example </body > 
</html > 


3.4.3 HTTP 头 部 


在 HTTP 的 请 求 报 文 和 啊 应 报 文中 部 有 头 部 信息 块 ,其 中 的 每 个 记录 有 具有 “ 属 
性 名 :属性 值 ” 的 形式 。 图 3-10、 图 3-11 分 别 是 请 求 “http://www. fudan. edu. cn/ 
2016/index. html” 页 面 时 从 浏览 器 的 开发 者 模式 下 的 截图 ,其 中 包含 了 请 求 头 和 响 
应 头 信 息 。 两 个 图 中 除了 第 一 行 的 请 求 行 和 啊 应 行 外 ,其 他 都 是 头 部 信息 。 


GET /2816/index.html HTTP/1.1 

Host: wwuw.fudan.edu.cen 

Connection: keep-alive 

Uperade-Insecure-Requests: 1 

User-Aeent: Mozilla/5.8 (Windows NT 6.1: Win64; x64) ApplewWebKkit/537.36 (KHTML, like Gecko) Chrome/ 
68.8.34460.186 Safarl/537.36 

Accept: text/html ,application/xhtml+xml ,application/xml:q=8.9,image/webp, image/apne,*/*:9g=8.8 
Accept-Encodine: gzip, deflate 

Accept=-Language: zh-=-CN,zh:q=@.9 

Cookie: UM distinctid=163cd68b9db9fe-83062flbafl49c-3c3c5985-18628690-163cd68b9de63d 
If-None-Match: "Sb868fb8@-138el" 

If-Modified-Since: Wed, 29 Aug 2818 12:21:84 GMT 


图 3-10 请求 头 信息 块 
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从 图 中 可 以 看 出 ,一 些 属性 在 爬虫 程序 设计 中 nrrpyi.l 26e ox 
Server: Mmeinx 
是 非 名 和 车 归 的 . 例 如 User-Agent Accept 本 Accept- Date: Fri, 31 Aug 2918 86:58:38 GMT 
Content-Type: text/html 
[Language 总 (ookie 和 Content-T ype . 可 [人 直接 在 程 帮 Content-Length: 77969 
Last-Modified: Fri, 31 Aug 2918 91349:41 GMT 
中 填写 相应 的 属性 名 和 属性 值 来 设置 息 虫 的 行为 Erag: "sbss9c99-13891" 


Accept-Ranpges: bytes 
HT 二 o R=Cache: MISS$ from 2ndDomalnsryv 
X-Cache-Lookup: MISS from 2ndDomainsryv :8 


属性 名 可 以 归纳 为 三 大 类 , 即 请 求 涉 和 啊 应 头 via: 1.1 2ndpomainsrv (squid) 
部 可 以 使 用 的 属性 ,以 及 请 求 头 和 响应 头 独 有 的 属 人 
性 。 完 整 的 头 部 属性 名 可 以 在 Wikipedia 网 站 的 
List of HTTP _ header fields 页 面 中 查阅 (https://en. wikipedia. org/ wiki/ List_of_HTTP 
_header fields) ,一 些 常 用 的 属性 名 说 明 如 下 。 

1) Accept 

Accept 请 求 头 表示 可 接受 的 啊 应 内 容 。 与 Accept 首部 类 似 的 还 有 Accept- 
Charset、Accept-Encoding、Accept-Language 等 首部 ,分 别 表 示 客 户 靖 可 接受 的 字符 
集 .可 接受 的 编码 方式 和 可 接受 的 语言 。 

值得 注意 的 是 ,HTTP 1. 1 为 这 些 首部 引信 人 了 了 品质 因 了 于 q(quality value) ,用 来 表 
示 不 同 版 本 的 可 用 性 。 例 如 在 上 文 请 求 头 中 ,Accept 属性 值 中 出 现 了 两 个 品质 因子 
q, 服 务 融 会 优先 选取 品质 因子 值 高 的 对 应 资源 版 本 作为 啊 应 。 

2) Host 

HTTP 1. 1 添加 Host 首部 来 表示 服务 需 的 域名 以 及 服务 部 所 监听 的 端口 号 (如 果 
所 请 求 的 端口 为 所 请 求 服务 的 标准 端口 , 则 端口 号 可 以 省 略 )。 例 如 图 3-10 请 求 头 中 
的 “Host: www. fudan. edu. cn” 字 有 段 表示 客户 端 请 求 访问 域名 为 “www. fudan. edu. cn 的 
服务 硕 的 80 端口 。HTTP 1.0 认为 每 台 服 务 需 都 绑 定 一 个 唯一 的 IP 地 址 ,但 目前 
多 个 虚拟 站 点 可 以 共享 同一 个 IP 地 址 。 在 加 入 Host 首部 后 ,其 属性 值 可 以 明确 指 
出 要 访问 IP 地址 上 的 哪个 站 点 。 应 当 指出 的 是 ,请 求 头 中 必须 包含 Host 首部 ,否则 
服务 融会 返回 一 个 错误 。 

3) Range 

HTTP 1. 1 在 请 求 头 中 添加 Range 首部 表示 客户 端 回 服务 器 请 求 资 源 的 某 个 前 
分 。 例 如 “Range: bytes 三 0-499”, 表 示 客 户 端 请 求实 体 的 前 500 宇 记 。Range 首部 
的 使 用 避免 了 服务 器 回 客 户 端 发 送 其 不 需要 的 资源 ,从 而 造成 带宽 浪费 。 在 从 Web 
服务 天 下 载 文件 时 ,所 使 用 的 断 点 续 传 功能 就 依赖 于 这 个 首部 的 使 用 。 
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4) User-Agent 

User-Agent 属性 表示 客户 端的 号 份 标识 字符 串 。 通 过 该 字符 串 使 得 服务 大 能 
够 识别 客户 使 用 的 操作 系统 及 版 本 .CPU 类 型 .浏览 器 及 版 本 .浏览 锅 泻 染 引 擎 、 浏 
览 希 语言 .浏览 硕 搬 件 等 信息 。 对 于 浏览 需 而 言 ,该 字符 串 的 标准 格式 为 : 


浏览 器 标识 (操作 系统 标识 ; 加 密 等 级 标识 ; 浏览 占 语 言 ) 泻 染 引 擎 标识 版 本 信息 


User - Agent: Mozilla/5.0 (Windows NT 6. 1; Win64; x64) AppleWebKit/537. 36 (KHTML, like 
Gecko) Chrome/68.0.3440.106 Safari/537.36 


对 于 疏 虫 程序 而 言 ,该 属性 的 值 是 可 以 随便 设置 的 ,并 不 一 定 要 脖 守 浏览 需 和 格 
式 , 但 是 这 种 方式 增加 了 服务 器 识别 爬虫 的 风险 

9) Content-Range 

与 请 求 头 的 Range 属性 相对 应 ,HTTP 1. 1 在 响应 头 中 添加 Content-Range 首部 表 
示 服 务 硕 已 啊 应 客户 端 请 求 的 部 分 贰 源 。 例 如 "ContentRange: bytes 0-499/1024” 表 示 
已 经 啊 应 了 实体 的 前 500 字 节 ,和 斜 杠 后 面 的 数字 表示 实体 的 大 小 。 

6) Content-Type 

Content-Type 首部 表示 啊 应 体 的 MIME 类 型 , 即 啊 应 体 是 用 何 种 方式 编 但 的 。 
常见 的 媒体 编码 格式 类 型 有 text/html(HTML 格式 ) .text/plain( 纯 文本 格式 )、 
image/jpeg(jpg 图 片 格式 ); 以 application 开头 的 媒体 格式 类 型 有 application/json 
(JSON 数据 格式 )、application/pdf (PDF 格式 )、application/msword (Word 文档 
格式 )。 

7) Cookie 

Cookie 是 请 求 报 文中 可 用 的 属性 ,也 是 客户 端 最 重要 的 请 求 头 属性 。Cookie 存 
储 了 客户 端的 一 些 重 要 信息 ,例如 身份 标识 、 所 在 地 区 等 ,通常 是 一 个 文本 文件 。 在 
回 服务 硕 发 送 URL 请 求 时 可 以 将 文件 内 容 读 出 ,附加 在 HTTP 的 请 求 头 中 ,能 免 去 
用 户 输入 信息 的 夺 烦 。 

8) Set-Cookie 

Set-Cookie 是 啊 应 报 文中 可 用 的 属性 ,服务 硕 可 以 在 啊 应 报 文中 使 用 该 属性 将 
一 些 信息 推送 给 客户 端 。 客 户 端 收 到 信息 后 , 通 第 的 做 法 是 生成 Cookie 文件 ,将 这 
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些 内 容 保存 起 来 。 例 如 以 下 代码 表示 服务 天 发 送 UserID、Version 信息 给 客户 病 , 布 
望 客户 端 将 它们 保存 到 Cookie 文件 中 。 


Set — Cookie: UserID= Wangl2; Version=1 


9) Connection 
Connection 是 请 求 报 文 和 啊 应 报 文中 都 可 用 的 属性 ,通过 该 属性 可 以 允许 客户 
病 和 服务 融 指 定 与 请 求 / 啊 应 连接 有 天 的 选项 ,相应 的 属性 信 有 keep-alive、Upgrade。 

从 前 面 关 于 HTTP 协议 版 本 技术 特性 演变 的 介绍 可 以 看 出 keep-alive 是 一 个 很 
重要 的 属性 ,然而 并 不 是 设置 了 keep-alive 就 意味 着 可 以 建立 永久 连接 。 在 默认 情况 
下 ,Web 服务 端 设置 了 keep-alive 的 超时 时 间 , 当 连接 超过 指定 的 时 间 时 服务 端 就 会 
主动 关闭 连接 。 此 外 ,为 了 提高 HTTP 啊 应 时 间 ,避免 Web 服务 拥塞 ,并 发 连接 数 
( 即 同时 处 于 keep-alive 的 连接 的 数目 ) 也 不 宜 太 大 。 

10) Content-Length 

Content-Length 首部 表示 啊 应 体 的 长 度 , 其 属性 人 用 八进制 宇 节 表示 。 

11) Content-Language 

Content-Language 首部 表示 响应 内 容 所 使 用 的 语言 。 

12) Server 

Server 表示 服务 右 名 称 。 

13) Warning 

HTTP 1.1 在 响应 头 中 添加 Warning 首部 来 更 好 地 描述 错误 和 警告 信息 ,这 : 
信息 通常 比 原因 短语 更 详细 。 

14) Referer 

HTTP Referer 是 header 的 一 部 分 , 当 浏 览 希 回 Web 服务 大 发 送 请 求 时 一 般 会 
市 上 Referer 属性 值 ,告诉 服务 硕 该 请 求 是 从 哪个 页 面 链接 过 来 的 。 例 如 己 页 面 上 有 
个 链接 到 A, 当 用 户 从 该 链接 访问 A 时 ,发 送 给 A 所 在 的 Web 服务 器 的 请 求 头 中 的 
Referer 值 就 是 B。 


3.4.4 HTTP 状态 码 


HTTP 状态 码 CHTTP Status Code) 是 用 来 表示 Web 服务 天 HTTP 啊 应 状态 的 
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3 位 数字 代码 。 通 过 HTTP 状态 码 可 以 得 知 服务 器 的 啊 应 状态 ,以 便 更 好 地 处 理 通 
信 过 程 中 遇 到 的 问题 。 对 于 疏 虫 程序 而 言 , 可 以 通过 这 个 状态 码 确 定 页 面 抓 取 结 果 。 
HTTP 状态 码 由 RFC 2616 规范 定义 ,并 得 到 RFC 2518、RFC 2817、RFC 2295 、RFC 
2774、RFC 4918 等 规范 扩展 。 状 态 码 包含 了 5 种 类 别 , 即 消息 .成功 . 重 定 加 .请求 错 
误 和 服务 需 错 误 。 

状态 码 由 3 位 数字 构成 ,例如 200, 表 示 请 求 成 功 。 数 字 中 的 第 一 位 代表 了 状态 
但 所 属 的 啊 应 类 别 ,共有 五 大 类 状态 码 ,分 别 以 1 一 5 几 个 数字 开头 ,如 表 3-1 所 示 。 


表 3-1 状态 码 的 类 别 
分 类 描述 
表示 服务 器 已 经 收 到 请 求 ,需要 继续 处 理 。 在 HTTP 1.0 中 没 
有 定义 1XX 状态 码 , 因 此 除非 在 某 些 试验 条 件 下 ,服务 器 不 要 
回 客户 端 发 送 1XX 啊 应 
表示 请 求 被 成 功 接收 并 处 理 
表示 需要 采取 进一步 操作 才能 完成 请 求 。 这 类 状态 码 用 来 重 
定向 ,对 于 GET 或 HEAD 请 求 ,服务 器 响应 时 会 自动 将 客户 
端 转 到 新 位 置 
客户 端 错误 状态 码 ”| 表示 客户 端的 请 求 可 能 出 错 , 服 务 器 无 法 处 理 请 求 

5XX 服务 器 错误 状态 码 “| 表示 服务 器 在 处 理 请 求 的 过 程 中 内 部 发 生 了 错误 


服务 器 返回 的 状态 码 后 常 跟 有 原因 短语 (例如 200 OK) ,原因 短语 为 状态 码 提 供 
了 文本 形式 的 解释 。 

状态 码 的 个 数 很 多 ,被 RFC 2616、RFC 2518、REFC 2817 等 规范 定义 的 状态 码 有 
60 多 个 ,但 实际 常见 的 状态 码 仅 有 以 下 10 个 ,通常 用 在 爬虫 程序 中 。 

(1) 成 功 状 态 码 。 

。 200(OK) : 这 是 最 常见 的 状态 码 ,表示 服务 需 成 功 处理 了 请 求 , 同 时 请 求 所 和 硕 

望 的 啊 应 头 或 实体 随 独 啊 应 返回 。 

。 202(Accepted) : 表示 服务 天 已 接 党 请 求 , 但 尚未 处 理 。 

(2) 重 定 回 状态 码 。 

*。 301(Moved Permanently): 


表示 请 求 的 资源 已 经 永久 地 移动 到 新 位 置 , 即 被 
分 配 了 新 的 URL。 客 户 端 以 后 的 新 请 求 都 应 使 用 新 的 URL。 

。 304(Not Modified) : 表示 客户 端 发 送 了 一 个 市 条 件 的 GET 请 求 且 该 请 求 已 
被 允许 ,而 文档 的 内 容 并 没有 改变 。 在 返回 的 啊 应 报 文 中 不 含 实 体 的 主体 
部 分 。 


(3) 客户 端 错误 状态 码 。 

。 400(Bad Request) : 表示 请 求 报 文 存在 语法 错误 或 参数 错误 ,服务 器 无 法 
理解 。 

。 401(Unauthorized) : 表示 当前 请 求 要求 客 户 端 进行 身份 认证 或 是 身份 认证 
失败 。 对 于 需要 登录 的 网 页 ,服务 硕 可 能 返回 此 吧 应 。 

。 403(Forbidden) : 表示 服务 需 已 经 理解 请 求 , 但 是 拒绝 执行 。 拒 绝 执行 可 能 
是 由 于 客户 端 无 访问 权限 等 原因 ,但 服务 器 无 须 给 出 拒绝 执行 的 理由 。 

。 404(Not Found) : 表示 请 求 失败 ,在 服务 器 上 无 法 找到 请 求 的 资源 。 

(4) 服务 冀 错 误 状 态 公 。 

。 500(Internal Server Error): 表示 服务 器 执行 请 求 时 发 生 错 误 , 无 法 完成 请 
求 。 当 服务 需 端 的 源 代 码 出 现 错误 时 会 返回 这 个 状态 码 。 

。 503(Server Unavailable) : 表示 服务 硕 超 负载 或 正 停 机 维护 ,无 法 处 理 请 求 。 
这 个 状态 通常 是 临时 的 ,将 在 一 段 时 间 后 恢复 。 


3.4.5 HTIPS 


HTTPS(Hypertext Transfer Protocol Secure, 超 文本 传输 安全 协议 ) 是 一 种 通 
过 计算 机 网 络 进 行 安全 通信 的 传输 协议 ,简单 来 说 ,HTTPS 是 HTTP 协议 的 安全 版 

本 。HTTP 报 文 使 用 明文 发 送 , 传 输 的 信息 很 容易 被 监听 和 自 改 ; HTTPS 是 使 用 
SSL/TLS 加密 的 HTTP 协议 ,可 以 保护 传输 数据 的 隐私 和 完整 性 ,同时 实现 服务 硕 
的 身份 验证 。 

SSL(Secure Sockets Layer, 安 全 套 接 层 ) 是 介 于 HTTP 与 TCP 之 间 的 安全 协 
议 ,SSL 在 传输 层 同时 使 用 对 称 加 密 以 及 非 对 称 加 密 对 网 络 连接 进行 加 密 。 其 中 ,对 
称 加 密 算 法 的 加 密 与 解密 使 用 同一 个 密 钥 ; 非 对 称 加 密 算 法 的 加 密 与 解密 使 用 不 同 
的 两 个 密 钥 , 即 公 开 密 钥 (public key, 简称 公 钥 ) 和 私有 密 钥 (private key, 简 称 私 钥 ) 。 
非 对 称 加 密 与 对 称 加 密 相 比 安全 性 更 高 ,但 是 加 密 与 解密 花费 的 时 间 长 .速度 慢 。 因 
此 ,在 准备 建立 连接 时 ,SSL 使 用 服务 器 的 证 书 ( 公 钥 ) 将 对 称 密 钥 非 对 称 加 密 , 保 证 
对 称 密 钥 的 安全 ; 在 连接 建立 后 ,SSL 对 数据 量 较 大 的 传输 内 容 使 用 对 称 加 密 , 提 高 
加 密 效 率 。 

传输 层 安 全 协议 (Transport Layer Security Protocol,TLS) 是 SSL 3.0 的 后 续 版 
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本 ,与 SSL 的 内 容 大 致 相同 ,因此 很 多 文章 将 TLS 与 SSL 并 列 称呼 , 即 SSL/TLS。 

S 相当 于 在 HTTP 的 基础 上 使 用 SSL/TLS 对 传输 的 数据 进行 加 密 , 因 此 
互 最 大 的 区 别 在 于 ,使 用 HTTPS 传输 数据 之 前 需要 客户 端 与 
服务 融 进 行 一 次 SSL 握手 ,在 握手 过 程 中 将 确立 双方 加 密 传 输 数 据 的 密码 信息 。 如 
图 3-12 所 示 , 下 面 主 要 介绍 SSL 握手 中 的 单 癌 认证 过 程 , 即 客户 闪 校 验 服 务 郑 的 证 
书 合法 性 。 


Client Server 
TCP 连 接 建 立 


发 送 SSL 且 本、 加密 算 法 、 随 机 数 


证 书 ( 公 寡 ) 


返回 SSL 版 本 、 加 密 算 法 、 随 机 数 、 


| 


随机 生成 对 称 密 钥 | 发 送 加 密 后 的 对 称 密 钥 
并 便 用 公 钥 加 密 改 


四 区 用 私 钥 解密 
发 送信 息 : CI 对 称 密 负 


发 送信 息 : 协商 后 续 通 信 要 使 用 的 对 称 密 角 完成 ， 
结束 握手 


加 密 数 据 通信 


图 3-12 ”HTTPS 交互 过 程 


(1) 客户 端的 浏览 器 发 送 客 户 端 SSL 协议 的 版 本 号 、 加 密 算法 的 种 类 、 产 生 的 随 
机 数 以 及 其 他 在 SSL 协议 中 需要 用 到 的 信息 。 

(2) 服务 器 向 客户 端 返回 SSL 协议 的 版 本 号 、 加 密 算 法 的 种 类 、 随 机 数 以 及 其 他 
相关 信息 ,同时 服务 器 还 将 向 客户 端 传送 自己 的 证 书 。 证 书 用 于 身份 验证 ,其 中 包含 
用 于 非 对 称 加 密 的 公共 密 钥 。 

(3) 客户 端 用 服务 融 传 过 来 的 证 书 进行 服务 从 信息 校 验 。 服 务 豆 信息 校 验 的 内 
容 包 括 证 书 链 是 否 可 靠 . 证 书 是 否 过 期 .证 书 域名 是 否 与 当前 的 访问 域名 匹配 等 。 如 
果 服 务 器 信息 校 验 没有 通过 ,结束 本 次 通信 ,否则 继续 进行 第 (4) 步 。 

(4) 客户 端 随机 生成 一 个 用 于 后 续 通信 的 对 称 密 钥 ,然后 使 用 服务 器 在 第 (2) 步 
发 来 的 公共 密 钥 对 其 加 密 ,之 后 将 加 密 的 对 称 密 钥 发 送 给 服务 器 。 

(5) 服务 器 使 用 私有 密 钥 解密 客户 端 发 来 的 信息 ,得 到 用 于 后 续 通 信 的 对 称 
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(6) 客 尸 问 问 服务 大 问 发送 信息 ,信息 中 指明 协商 后 续 通 信和 要 使 用 的 对 称 密 包 
完成 ,后 面 的 通信 邦 要 使 用 第 (5) 步 得 出 的 对 称 密 钥 进 行 加 密 , 同 时 通知 服务 融 握手 
过 程 结束 。 

(7) 服务 硕 也 回 客 户 病 发 送 协 商 后 续 通 信和 要 使 用 的 对 称 密 钥 完成 ,握手 过 程 
失 束 。 

之 后 SSL 的 握手 结束 ,客户 和 服务 胡 开 始 使 用 相同 的 对 称 密 钥 对 要 传输 的 数据 

进行 加 密 ,同时 进行 通信 完整 性 的 检验 。 


3.5 状态 保持 扩 术 


当 使 用 浏览 器 访问 Web 服务 器 上 的 页 面 时 ,浏览 器 首先 会 建立 与 Web 服务 器 
的 HTTP 连接 ,之 后 浏览 带 在 这 个 连接 上 发 送 URL ,接收 服务 硕 返 回 的 信息 ,并 显示 
在 浏览 右上 。 如 果 进 行 连接 复 用 或 持久 化 ,后 续 的 URL 请 求 和 啊 应 信息 接收 都 可 以 
在 这 个 连接 上 进行 ,这 些 请 求 之 间 是 相互 独立 的 。 

如 果 前 后 两 次 URL 请 求 之 则 需要 共 圣 菜 些 数据 ,例如 在 第 一 进行 了 用 户 
登录 ,第 二 个 页 面 的 访问 就 需要 以 该 用 户 号 份 进 行 。 更 简单 地 讲 ,一 个 客户 端 访问 服 
务 硕 时 ,可 能 会 在 这 个 Web 服务 希 上 的 多 个 页 面 之 间 不 断 刷 新 ` 反复 连接 同一 个 
面 或 者 问 一 个 页 面 提交 信息 。 在 这 种 情况 下 ,不 同 页 面 之 间或 同一 个 页 面 的 不 同 次 
访问 之 间 需 要 保持 某 种 状态 ,实现 这 种 需求 的 技术 就 是 状态 保持 技术 。 

由 于 HTTP 协议 本 身 是 无 状态 的 ,客户 端 回 服 务 需 发 送 一 个 request, 然 后 服务 
名 返回 一 个 response, 不 同 URL 之 间 的 状态 无 法 共 圣 , 即 状 态 无 法 保持 。 在 一 个 通 
信和 系统 中 要 实现 状态 保持 ,只 能 从 客户 端 和 服务 端 两 个 角度 来 设计 ,相应 地 ,这 两 种 
状态 保持 技术 就 是 Cookie 和 Session。 


3.5,.1 Cookie 


Cookie 是 由 服务 问 生 成 ,并 在 客户 端 进行 保存 和 读 取 的 一 种 信息 ,Cookie 通 第 
以 文件 形式 保存 在 用 户 问 。 查 看 Cookie 的 方法 随 看 浏览 问 的 不 同 而 不 同 , 图 3-13、 
图 3-14 分 别 是 在 Chrome 和 IE 中 的 查看 方法 。 
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人 有 © Chrome | chrome://settings/content/cookies 全 
::: 应 用 自 度 一 下 京东 商城 淘宝 网 全 天 湖 商 城 『 和 1 号 店 网 上 起 市”? 


和 Cookie 


允许 网 站 保存 和 读 取 Cookie 数据 ( 推荐 ) 
仅 将 本 地 数据 保重 刘 您 蝴 出 浏览 二 为 止 


阳 止 第 三 方 Cookie 
阻止 第 三 方 网 站 保存 和 访 有 取 Cookie 数据 


查看 所 有 Cookie 和 网 站 数据 


图 3-13 ”在 Chrome 中 查看 Cookie 的 方法 


Internet 临时 文件 | 厨 史记 录 缓存 和 数据 库 
自 尖 名 i 存 彤 0 、 图 像 和 媒体 的 副本 以 恒 以 后 


检查 存储 的 多面 的 较 新 版 本 : 
外 每 次 访 | 是 内 时 区) 
同 每 次 启动 Internet Explorer 时 避 ) 


250 地 


当前 位 置 
Ci\Users\hdministrator\hppData\Local Microsoft\ 


Windows\Temporary Internet Files 


, | | 查看 对 象 @) | | 查看 文件 总 -| 


图 3-14 在 正中 查看 Cookie 的 方法 


对 于 了 正 浏 览 器 来 说 ,Cookie 保存 在 本 地 计算 机 的 缓存 目录 中 ,其 默认 位 置 在 管 
理 员 目录 下 ,例如 “C.;\Users\Administrator\AppData\Local\Microsoft\Windows\\ 
Temporary Internet Files”。 进 入 该 目录 中 可 以 看 到 很 多 Cookie 文件 ,如 图 3-15 
所 示 。 

名 称 Internet 地 址 类 型 


国 coolke:administrator@acw.elsevier Coolme:administrator 人 @acw.elsevI...。 了 玫 本 记 档 
国 cookie:administrator@acw.evise Cookie:administrator@acw.evise...，。 文本 文档 


图 3-15 “Cookie 文件 示例 
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从 图 中 可 以 看 出 ,Cookie 文件 名 称 的 形式 为 Cookie: $$$$ @XXXX, 其 中 
$$$$ 表示 系统 用 户 ,XXXX 表示 生成 Cookie 的 网 站 。 每 个 Cookie 有 4 个 时 间 , 即 
过 期 时 间 、 上 次 修改 时 间 、 上 次 访问 时 间 和 上 次 检查 时 间 。 

在 文本 文件 中 打开 Cookie 文件 ,可 以 发 现 每 个 文件 中 包含 一 个 或 多 个 Cookie 记 
录 ,而 每 个 记录 中 包含 了 名 字 、 值 .过 期 时 间 、 路 径 和 域 ,具体 解释 如 表 3-2 所 示 。 


表 3-2 Cookie 文件 内 容 解 释 


Cookie 文件 中 的 一 个 记录 对 应 行 的 解释 取 值 样 例 
name Cookie 变量 名 uid 
value 变量 值 abcxyz001 
domain 十 path Cookie 变量 所 属 的 域 .路 径 , 即 作用 范围 mail. fudan. edu. cn/ 
option 可 选 标志 1600 
a 过 期 时 间 (FILETIME 格式 ) 的 高 位 整数 1638219776 
b 过 期 时 间 (FILETIME 格式 ) 的 低位 整数 36669619 
C 创建 时 间 (FILETIME 格式 ) 的 高 位 整数 1256217104 
d 创建 时 间 (FILETIME 格式 ) 的 低位 整数 30651615 
% Cookie 记录 分 隔 符 


在 表 中 名 字 (name) 和 值 (value) 并 没有 特殊 的 命名 规定 ,也 没有 写法 上 的 限定 。 
由 于 Cookie 是 在 服务 端 生成 ,最 终 由 浏览 副 进 行 解析 ,所 以 这 些 名 字 和 从 一 般 与 页 
面 的 某 些 变量 有 关 。 

域 (domain) 是 指 Cookie 变量 所 属 的 域 ,也 就 是 该 Cookie 的 有 效 域 范 围 。 路 径 
是 接 在 域 后 面 的 URL 路 径 , 最 简单 的 路 径 是 /, 也 可 以 是 /image 等 形式 。 路 径 与 域 
合 在 一 起 就 构成 了 Cookie 的 作用 范围 ,表示 Cookie 变量 在 该 范围 内 的 网 页 都 有 效 ， 
不 管用 户 访 问 该 目录 中 的 哪个 网 页 ,浏览 大 都 会 将 该 Cookie 信息 附 在 网 页 头 部 中 ， 
并 发 送 给 服务 端 。 

如 果 设 置 了 过 期 时 间 ,浏览 器 会 把 Cookie 保存 到 硬盘 上 , 当 关 闭 后 再 次 打开 浏 
览 磊 有 时, 这些 Cookie 仍然 有 效 耳 到 超过 设 定 的 过 期 时 间 。 如 果 没 有 设置 过 期 时 间 ， 
则 表示 这 个 Cookie 的 生命 期 为 浏览 郑 会 话 期 ,只 要 关闭 浏览 大 窗口 ,Cookie 束 消 失 

。 这 种 生命 期 为 浏览 器 会 话 期 的 Cookie 被 称 为 会 话 Cookie。 会 话 Cookie 一 般 不 
存储 在 硬盘 上 ,而 是 保存 在 内 存 里 。 

这 里 举 一 个 例子 ,在 一 个 提供 页 面 登录 的 Web 页 面 (http:/ /mail. fudan. edu. 
cn/) 中 勾 选 六 记 住 用 记名 ?选项 ,和布 望 浏览 吾 记 住 用 记名 (如 图 3-16 所 示 ) ,之 后 随便 
输入 一 个 用 记名 ,例如 a 钮 ,再 重新 加 载 该 页 面 ,就 会 发 现 浏 
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览 融 目 动 填 充 了 用 户 和 名 。 

这 时 查看 mail. fudan. edu. cn 的 Cookie 文件 就 会 发 现 , 文 件 中 的 一 个 记录 如 
图 3-17 所 示 ,可 以 看 出 名 宇和 值 分 别 为 uid、abcxyz001。uid 实际 上 就 是 图 3-16 中 用 
户 名 输入 框 的 名 字 。 


”电子 邮箱 登录 Language: 简体 中 文 下 
又 ab z001 we 
L i l | Uld 

@ fudan.edu.cn | abCcXyZ001 . 

mall. fudan. edu. cny/ 


1 密码 1600 

: 1638219776 

EE MS 36669619 
2916307976 

30677424 


-= 


图 3-16 某 Web 见 面 图 3-17 ”Cookie 文件 中 的 一 个 记录 


在 了 解 了 Cookie 文件 的 内 容 之 后 ,需要 了 解 Cookie 的 创建 和 使 用 方法 。Cookie 
中 记录 的 内 容 是 在 服务 胡 端 生成 的 ,人 然后 通过 HTTP headers 从 服务 冀 问 发送 到 浏 
览 大 上。 

浏览 套 在 处 理 用 户 输入 的 URL 时 ,根据 其 中 的 域名 寻找 是 否 有 相应 的 Cookie 
文件 ,如 条 有 , 则 进一步 检查 其 中 的 作用 犯 围 。 当 作用 范围 大 于 等 于 URL 指 回 的 位 
置 时 ,浏览 融会 将 该 Cookie 中 的 内 容 读 出 , 附 在 请 求 质 源 的 HTTP 请 求 头 上 并 发 送 
给 服务 从。 

具体 的 创建 和 使 用 方式 与 Web 服务 的 框 淋 和 文 持 的 语言 有 一 定 关 系 , 但 基本 原 
理 是 一 样 的 。 这 里 以 上 面 的 登录 处 理 为 例 , 这 是 一 个 JSP 页 面 , 假 如 为 Login. jsp, 单 
击 “ 登 录 ” 按 钮 之 后 ,将 输入 的 用 户 名 、 密 个 提交 给 action 王 "results. jsp" 进行 处 理 。 
那么 在 results. jsp 中 ,下 面 的 脚本 将 用 户 输入 的 用 户 名 作为 Cookie 的 值 (value), 其 
对 应 的 名 学 (name) 为 “username”。 最 后 通过 response 让 浏览 硕 冰 生成 一 个 Cookie 
Xs 

String username = request. getParameter("username"); 

Cookie cookiel = new Cookie("username",username);  // 创 建 Cookie 

cookiel. setMaxAge( 3600); // 设 置 过 期 时 间 , 以 秒 为 单位 


cookiel. setPath("/"); // 设 置 路 径 
response. addCookie(cookiel ) ; // 发 送 到 浏览 器 端 执行 创建 动作 
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在 下 面 的 代 但 段 中 ,服务 吾 获 得 浏览 厚 发 送 的 Cookie 内 容 , 并 从 中 取出 用 户 名 。 
这 段 代 公 可 以 舱 入 到 目 动 输入 用 尸 名 的 页 面 中 。 


Cookie cookies[ ] = request. getCookies( ) ; 
Cookie sCookie = cookies[1 |]; 
String username = sCookie. getValue( ); 


接着 就 可 以 按照 下 面 的 方式 将 username 变量 赋值 给 输入 框 ,然后 发 送 给 浏览 
人 镶 , 这 样 在 训 贤 船上 束 能 看 到 填充 的 用 户 名 了 了。 


< input type = "text" name= "username" Value =<$% =username %> size= 44 > 
3.93.2 Session 


仅 使 用 Cookie 来 保持 状态 存在 一 定 的 问题 ,主要 表现 在 以 下 几 个 | pr; 
方面 : 视频 讲解 


(1) Cookie 虽然 可 以 灵活 地 增加 名 字 (name) 和 值 (value), 但 是 每 个 域名 的 
Cookie 数量 、Cookie 文件 大 小 是 受 限 的 ,具体 数值 取决 于 不 同 浏览 右 。 例 如 Firefox 
将 每 个 域名 的 Cookie 限制 为 最 多 50 个 ,每 个 文件 最 多 4KB。 因 此 ,在 一 些 需 要 在 客 

器 和 Web 服务 冀 之 间 进 行 较 多 数据 交换 的 应 用 中 ,使 用 Cookie 就 不 合适 。 

(2) Cookie 存在 一 定 的 安全 风险 ,Cookie 信息 可 以 很 容易 被 截获 ,如 果 是 明文 ， 
则 可 能 造成 信息 泄露 。 但 不 管 是 明文 还 是 密 文 ,都 可 以 二 接 被 用 来 伪造 HTTP 请 
求 , 即 Cookie 欺骗 ,冒充 受害 人 的 导 份 登录 网 站 。 

Session 是 另 一 种 第 见 的 在 客户 端 与 服务 需 之 间 保 持 状态 的 机 制 , 在 一 定 程度 上 
解决 或 缓解 了 上 述 问题 ,准确 理解 其 技术 原理 有 利于 设计 更 好 的 动态 爬虫 。 

Session 可 以 看 作 是 Web 服务 右上 的 一 个 内 存 块 ,能 够 将 原本 保存 在 Cookie 中 
的 用 户 信息 存储 在 该 内 存 块 中 ,而 客户 端 和 服务 需 之 间 依 靠 一 个 全 局 唯一 标识 
“Session id" 来 访问 Session 中 的 用 户 数据 ,这 样 只 需要 在 Cookie 中 保存 Session_id 
就 可 以 实现 不 同 页 面 之 间 的 数据 共享 。 可 见 在 Session 机 制 下 除了 Session_id 以 外 ， 
其 他 用 户 信 息 并 不 保存 到 Cookie 文件 中 ,这 解决 了 上 述 两 个 问题 。 

虽然 Session_ id 也 可 能 会 像 Cookie 内 容 一 样 被 截获 ,但 通 稍 Session_id 是 加 密 
存储 的 。 对 于 安全 性 保障 更 有 效 的 机 制 是 它 的 动态 性 , 即 Session 是 在 调用 
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HttpServletRequest. getSession(true) 这 样 的 语句 时 才 被 创建 ,而 在 符合 下 面 3 个 条 
件 之 一 时 终止 : 

(1) 程序 调用 HttpSession. invalidate( ) 。 

(2) 服务 天 关闭 或 服务 保 止 。 

(3) Session 超时 , 即 在 一 定 的 连 组 时 间 内 服务 融 没 有 收 到 该 Session 所 对 应 客 
户 问 的 请 求 ,并 且 这 个 时 间 超 过 了 服务 各 设置 的 Session 超时 的 最 大 时 间 。 这 个 最 大 
时 长 一 般 是 30 分 钟 ,在 服务 大 上 可 配置 。 

因此 只 要 Session 在 内 存 中 的 存活 时 间 不 是 太 长 , 当 攻击 者 截获 到 某 个 Session_ 
id 时 其 对 应 的 内 存 Session 可 能 已 经 销毁 了 , 故 也 就 无 法 获得 用 户 数据 。 

根据 以 上 摘 述 ,可 以 画 出 Session Cookie、 服务 硕 和 客户 端 ( 训 览 天 、 爬虫) 之 间 的 
关系 ,如 图 3-18 所 示 。 


创建 Cookie， 写 人 Session id 


二 ee 
i 读 出 Session id 


Server = Client 


图 3-18 Session .Cookie 服务 顺和 客户 端的 关系 图 


思考 是 
TD 


1. Web 服务 强 及 应 用 架构 与 网 络 息 虫 之 间 是 什么 关系 ? 
2. 学 习 使 用 Tomcat 等 Web 服务 右 软 件 制 作 页 面 ,并 在 浏览 各 中 浏览 。 
3. 浏览 大 需要 避 守 Robots 协议 四? Robots 协议 中 主要 规定 哪些 方面 的 


4. 不 同 版 本 的 HTTP 协议 存在 的 主要 区 别 是 什么 ? 
. 学习 使 用 浏览 带 的 开发 者 工具 查看 HTTP 请 求 报 文 、 啊 应 报 文 、 状 态 码 和 
Cookie, 

6. 谈 谈 Cookie 的 作用 。 


C7] 


第 级 这 


泗 通 他 虫 页 面 采集 技术 与 Python 实 现 


普通 候 虫 古 指 能 够 日 动 获取 页面 ,并 根据 一 定 的 策略 届 历 超 链 接 以 获取 尺 可 能 
多 的 页 面 的 人 息 虫 。 本 革 对 普通 息 虫 获取 一 般 页 面 的 相关 技术 进行 了 介绍 ,这 些 技术 
包括 息 虫 的 体系 架构 、Web 服务 冀 连 接 檀 链接 提取 与 过 小 、 扑 行 策略 及 实现 技术 等 。 


4.1 普通 爬虫 的 体系 架构 


普通 疏 虫 的 主要 目的 在 于 获取 数量 尽 可 能 多 的 页 面 , 而 不 管 这 些 页 面 中 是 什么 
内 容 ,也 不 管 这 些 页 面 是 静态 页 面 还 是 动态 页 面 。 为 了 达到 这 个 目的 ,需要 有 合适 的 
体系 架构 来 支持 。 

普通 爬虫 的 体系 架构 如 图 4-1 所 示 , 从 整体 上 看 , 它 包 含 了 Web 服务 连接 、URL 
提取 和 过 滤 、. 疏 行 策略 等 关键 部 分 。 这 些 关键 技术 有 效 地 保障 了 疏 虫 处 理 流 程 的 

具体 的 流程 描述 如 下 : 

(1) Web 服务 硕 连 接 需 回 指定 的 Web 服务 需 发 起 连接 请 求 ,再 建立 爬虫 和 Web 
服务 器 之 间 的 网 络 连接 。 该 连接 就 作为 后 续 发 送 URL 和 接收 服务 器 返回 信息 的 通 
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路 ,直到 爬虫 或 服务 需 断 开 该 连接 。 在 连接 的 过 程 中 ,为 了 减 小 域名 到 IP 地 址 的 映 
射 时 间 消 耗 , 怜 虫 端 需要 使 用 DNS 绥 存 。 

(2) 在 该 连接 上 向 Web 服务 器 发 送 URL 页 面 请 求 命令 ,并 等 待 Web 服务 器 的 响 
应 。 对 于 一 个 新 的 网 站 ,在 发 送 URL 请 求 之 前 应 当 检 查 其 根 目录 下 是 否 有 robots. txt 
文件 。 如 果 有 , 则 应 当 对 该 文件 进行 解析 ,建立 服务 需 访 问 要 求 和 URL 许可 列表 ， 
同时 需要 处 理 各 种 可 能 的 网 络 异 第 、 各 种 可 能 的 Web 服务 硕 异 第 ,例如 HTTP 404 
错误 等 。 当 Web 服务 需 反 馈 页 面 内 容 后 即 可 保存 页 面 信息 ,并 将 HTML 编码 的 文 
本 信息 送 给 下 一 个 处 理 步骤 。 

(3) 对 获取 到 的 HTML 文件 进行 URL 提取 和 过 滤 ,由 页 面 解析 器 对 HTML 
文本 进行 分 析 ,提取 其 中 所 包含 的 URL ,并 根据 robots. txt 的 访问 许可 列表 、 是 否 已 
经 候 行 过 等 基本 规则 对 提取 出 来 的 URL 进行 过 滤 , 以 排除 掉 一 些 不 需要 获取 的 
页 面 。 

(4) 根据 一 定 的 爬行 策略 将 每 个 URL 放 到 URL 任务 中 的 适当 位 置 。 由 于 一 个 
HTML 文件 中 可 能 包含 很 多 URL ,这 样 随 看 HTML 文件 的 增多 ,爬虫 需要 疏 行 的 
URL 也 会 越 来 越 多 ,采用 合理 的 策略 来 决定 爬行 这 些 URL 的 先后 顺序 就 非 稼 重要 。 
策略 的 设计 和 实施 需要 考虑 Web 服务 融 在 访问 频率 .时间 等 方面 的 要 求 以 及 连接 建 
立 的 时 间 消 耗 等 问题 。 

(5) 当 某 个 URL 对 应 的 页 面 息 行 完毕 后 ,Web 服务 器 连接 器 从 URL 疏 行 任务 
获得 新 的 URL。 上 述 过 程 不 断 重 复 进 行 , 下 到 息 行 任务 为 空 , 或 者 用 户 中 断 为 止 ，。 

对 于 该 流程 中 的 具体 实现 细 市 和 关键 技术 问题 ,将 在 后 续 的 各 个 小 市 中 展开 
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Web 服务 需 连 接 需 的 输入 是 一 个 URL ,输出 是 该 URL 指 癌 的 页 面 的 内 容 。 
URL 指 回 的 页 面 有 静态 页 面 和 动态 页 面 之 分 ,从 客户 半 的 角度 看 , 动 仿 页 面 的 获取 
需要 考虑 用 户 输入 的 命令 参数 ,而 页 面 内 容 的 获取 与 静态 页 面 并 无 区 别 。 因 此 这 里 
以 静态 页 面 的 URL 为 主 进行 讲述 ,动态 页 面 获取 的 特殊 技术 将 在 后 面 专门 讲解 。 


4.2.1 整体 处 理 过 程 
Web 服务 器 连接 器 模块 主要 功能 的 实现 可 以 用 以 下 流程 来 描述 。 
1. 输入 : URL 
形式 为 : 


http(https) :// 域 名 部 分 :端口 号 /目录 /文件 名 .文件 后 绥 
http(https):// 域 名 部 分 :端口 号 /目录 / 


其 中 ,目录 可 以 包含 多 层 子 目录 。 
2， 处 理 过 程 


(1) 从 URL 中 提取 域名 和 端口 号 ,如 果 问 口号 为 空 , 则 设置 为 默认 的 端口 号 ， 
即 80; 

(2) 以 域名 和 端口 号 为 参数 创建 Socket 连接 ; 

(3) 连接 建立 后 检查 服务 器 的 根 目 录 中 是 否 存 在 robots. txt 文件 ; 

(4) 如 果 存 在 则 解析 robots. txt 文件 ,生成 许可 列表 和 服务 器 对 访问 要 求 的 参数 ; 

(5) 根据 许可 列表 和 访问 时 间 限 定 , 如 果 人 允许, 则 向 服务 器 发 送 URL 请 求 ; 

(6) 等 待 服务 天 啊 应 ; 

(7) 进行 异常 处 理 , 针 对 各 种 已 知 的 HTTP 标准 错误 代码 做 好 预案 ; 

(8) 接收 服务 器 返回 的 数据 ,把 数据 保存 到 文件 中 ; 

(9) 断 开 网 络 连接 。 
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3. 输出 : 页 面 的 HTML 文件 


震 要 指出 的 是 ,该 流程 是 针对 一 个 页 面 的 采集 过 程 。 如 果 爬 虫 抓 取 一 个 网 站 上 
的 多 个 页 面 , 则 robots. txt 文件 只 要 检查 解析 一 次 。 同 时 ,一 个 页 面 保存 到 文件 之 后 
也 不 一 定 要 断 开 网 络 连接 ,在 第 3 章 描述 HTTP 协议 时 提 到 了 HTTP 1. 0 请 求 报 文 
中 的 Connection 属性 如 果 设 置 为 keep-alive, 表 示 连 接 会 保持 。 在 HTTP 1.1 中 这 个 
属性 默认 设置 为 keep-alive。 服 务 端 并 不 会 主动 断 开 连接 , 疏 虫 需要 将 两 次 URL 请 
求 和 返回 的 响应 信息 对 应 起 来 ,确保 所 存储 页 面 文件 的 正确 性 。 


4.2.2 DNS 缓存 


DNS 缓存 是 一 种 被 高 度 封装 但 又 对 爬虫 性 能 有 较 大 影响 的 处 理 模 块 。DNS 组 
存 的 实现 可 以 在 操作 系统 或 虚拟 机 、 解 释 噩 以 及 应 用 层 上 进行 。 例 如 ,Python 解释 
从 Java 虚拟 机 目 号 都 可 以 实现 DNS 缓存 。 这 样 对 于 一 个 域名 , 先 在 应 用 层 上 进行 
解释 , 找 不 到 再 到 虚拟 机 、 解 释 器 的 缓存 中 查询 ,最 后 到 操作 系统 的 缓存 中 查询 (或 互 
联网 的 DNS 请 求 ) 。 

在 应 用 层 实 现 DNS 缓存 , 疏 虫 程序 需要 管理 域名 和 IP 地 址 的 对 应 关系 ,包括 插 
入 .删除 .修改 或 查询 等 操作 。 在 爬虫 层面 实现 DNS 缓存 可 以 有 针对 性 地 对 扑 行 任 
务 进 行 管理 ,提高 爬虫 程序 的 灵活 性 ,提高 网 络 连接 效率 。 

在 应 用 层 实 现 DNS 缓存 ,可 以 用 Python 的 类 来 编写 ,也 可 以 基于 dnspython 工 
具 包 进行 缓存 管理 的 实现 。dnspython 支持 几乎 所 有 的 记录 类 型 ,可 以 用 于 查询 
DNS。 它 通过 pip install dnspython 安 站 完 成 后 即 可 使 用 ,目前 的 版 本 是 dnspython 
1. 16.0。 该 模块 提供 了 很 多 DNS 处 理 方 法 ,最 第 用 的 方法 是 域名 查询 。dnspython 
提供 了 一 个 DNS 解析 器 类 resolver, 使 用 它 的 query 方法 可 以 实现 域名 的 查询 功 
能 ,代替 nslookup、dig 等 工具 。 例 子 如 下 : 


import dns. resolver 
a= dns. resolver. query("www. fudan. edu.cn", 'A') 井 忆 ' 表 示 将 主机 名 转换 为 IP 地 址 
ip = a, response. answer[0]. items[0].address # 获得 相应 的 IP 地址 '202.120.224.115: 


在 通过 这 种 方式 获得 域名 和 IP 地址 的 对 应 关系 之 后 ,可 以 通过 Python 的 列表 、 
数组 等 形式 来 存储 这 些 关 系 ,按照 一 定 的 素 上 略 来 维护 这 些 关 系 , 这 样 即 可 和 实现 息 虫 日 
己 的 DNS 缓存 。 
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4. 2.3 requests/response 的 使 用 方法 


requests 是 处 理 网 络 连接 .请求 和 啊 应 的 Python 库 , 利 用 该 库 提 供 ro 
的 功能 可 以 极 大 简化 怜 虫 的 Web 服务 右 连 接 器 的 开发 过 程 。requests ” 仙 沪 讲解 
库 提 供 了 8 个 主要 郴 数 , 见 表 4-1。 


表 4-1 regquests 库 的 主要 上 函数 


requests. request() 用 于 构造 一 个 请 求 

requests. get( ) 获取 HTML 网 页 的 主要 方法 ,对 应 HTTP 的 GET 
requests. head() 获取 HTML 网 页 头 部 的 信息 方法 ,对 应 HTTP 的 HEAD 
requests, post( ) 回 HTML 网 页 提交 POST 请 求 方法 ,对 应 HTTP 的 POST 
requests. put() 回 HTML 网 页 提交 PUT 请 求 方法 ,对 应 HTTP 的 PUT 
requests. patch() 回 HTML 网 页 提交 局 部 修改 请 求 ,对 应 HTTP 的 PATCH 
requests. delete( ) 问 HTML 页 面 提交 删除 请 求 ,对 应 HTTP 的 DELETE 
requests. Session( ) 在 不 同 次 请 求 中 Web 服务 器 保持 某 些 参数 


在 这 些 函 数 中 , 息 虫 最 第 用 的 函数 是 get() ,该 因数 的 原型 如 下 : 


get(url, params = None, *x kwargs) 


其 中 ,url 是 要 采集 的 网 页 地 址 ,params 是 请 求 url 时 的 额外 参数 ,可 以 是 字典 或 者 字 
性 流 格式 。 
该 函数 最 简单 的 使 用 方式 见 如 下 例子 : 


r= requests. get("http://www. fudan. edu. cn/") 


然后 通过 r.text 即 可 获得 指定 url 的 页 面 的 HTML 内 容 。 
get() 畏 数 的 返回 结果 , 即 这 个 例子 中 的 r, 是 一 个 requests. Response 对 象 , 该 对 
象 的 属性 及 相应 的 说 明 见 表 4-2。 


表 4-2 ”Response 对 象 的 属性 


属 性 说 明 
status code HTTP 请 求 的 返回 状态 人 码 ,在 3.4.4 节 中 介绍 
text HTTP 响应 内 容 的 字符 串 形式 , 即 页 面 内 容 
encoding 从 HTTP header 中 猜测 的 啊 应 内 容 编 码 方 式 
apparent_encoding 从 内 容 中 分 析出 的 啊 应 内 容 编 码 方式 


content HTTP 啊 应 内 容 的 二 进 制 形式 
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get() 图 数 的 参数 *x kwargs 是 用 于 控制 请 求 的 一 些 附 属 特 性 ,包括 headers、 
cookies ,params proxies 等 ,总 共有 12 个 控制 人 参数。 市 控制 参数 的 页 面 请 求 例子 如 下 ， 
表明 在 请 求 url 时 将 请 求 头 中 的 User-Agent 属性 值 设置 为 Mozilla/5. 0。 

http headers = { 

'User — Agent' : 'Mozilla/5.0', 

} 

r = requests.get("http://www. fudan. edu.cn/", headers = http headers) 

主要 的 控制 参数 及 功能 介绍 如 下 。 

(1) headers: Python 中 的 字典 型 变量 ,可 以 模拟 任何 浏览 融 标 识 来 发 起 url 访 
问 。 完 整 的 头 部 属性 列表 已 经 在 3.4.3 节 中 介绍 过 了 。 

(2) cookies: 字典 或 CookieJar, 指 的 是 从 HTTP 中 解析 Cookie。 

(3) timeout: 用 于 设 定 超时 时 间 ,单位 为 秒 。 当 发 起 一 个 GET 请 求 时 可 以 设置 

一 个 timeout 时 间 ,如果 在 timeout 时 间 内 请 求 内 容 没 有 返回 ,将 产生 一 个 timeout 的 

(4) proxiles: 字 册 典 ,用 来 设 上 置 访 问 代 理 服 务 需 。 

(5) params: 字 — 典 或 字 市 序列 ,作为 参数 添加 到 url 中 ,使 用 这 个 参数 可 以 把 一 
些 键 值 对 以 ? keyl=valuel 必 key2 王 value2 的 模式 添加 到 url 中 。 例 如 : 


kv = {'keyl: 'values, 'key2': values)} 
r = requests. request('GET', 'http:www. pythonl23. io/ws', params = kv) 


(6) data: 字典 、 字 节 序 或 文件 对 象 ,向 服务 器 提供 或 提交 资源 时 提交 ,作为 
request 的 内 容 。 与 params 不 同 的 是 ,data 提交 的 数据 并 不 放 在 url 链接 里 ,而 是 放 
在 url 链接 对 应 位 置 的 地 方 作为 数据 来 存储 。 它 也 可 以 接受 一 个 字符 串 对 象 。 

(7) json: JSON 格式 的 数据 , JSON 格式 在 相关 的 HTML、HTTP 相关 的 Web 
开发 中 非常 常见 ,也 是 HTTP 最 经 常 使 用 的 数据 格式 , 它 是 作为 内 容 部 分 向 服务 器 
交 。 例 如 : 


kv = {'kevyl': 'valuel'} 
r = requests. request('POST', 'http://pythonl23. io/ws', json = kv) 


对 于 网 络 息 虫 程序 设计 ,更 多 的 例子 如 下 : 
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r = requests. get ("http://thelion. com/bin/aio msg. cgi", headers = {'User - Mgent ' : 
'Mozilla/5.0'}, timeout = 10, params = {'cmd':'search', 'symbol':'APP'}) # 同时 指定 了 
headers ,timeout 和 params 


对 于 后 一 个 例子 ,根据 params 的 规定 ,最 终 发 送 的 url 请 求 是 http://thelion. 
com/bin/aio_msg. cgi? cmd= search&symbol= APP”, 

为 了 正确 地 从 get() 的 返回 结果 中 获得 页 面 内 容 , 一 个 很 重要 的 步骤 是 检查 页 面 
的 编码 方式 ,然后 设置 requests. Response 对 象 的 encoding 属性 。 例 如 ,“http:// 
www. fudan. edu. cn/ ”页 面 的 编码 是 utf8。 


r = requests.get("http://www. fudan.edu.cn/", headers = {'User— Agent' : 'Mozilla/5.0'}, 


timeout = 10) # 同时 指定 了 headers 和 timeout 
r.encoding = 'utf - 8' # 设 定 为 页 面 的 编码 , 即 页 面 源 代码 中 charset 的 值 
r. text # 此 为 页 面 的 HTML 文本 信息 


只 有 当 设 定 的 编码 和 页 面 本 号 的 编 但 方式 一 致 时 ,通过 Response 对 象 的 text 属性 才 
能 获得 没有 乱码 的 HTML 文本 信息 。 但 是 编写 爬虫 程序 时 ,无 法 检查 每 个 页 面 的 编码 
这 时 ,可 以 使 用 以 下 两 种 方式 ,但 这 两 种 方式 不 能 傈 证 识别 出 来 的 编码 和 都 是 正 硝 的 。 
第 一 种 方法 是 通过 2. 2.5 万 中 介绍 的 目 动 检测 编 色 的 方式 来 设 定 , 上 其 体 如 下 : 


import chardet 

import requests 

r= requests. get("http://www. fudan. edu. cn") 
# 自动 检测 页 面 编码 方式 

cs = chardet. detect(r. content) 

r. encoding = cs[ 'encoding'| 

print(r. text[0:500]) 


这 里 需要 注意 的 是 ,在 检测 页 面 编 但 方式 时 只 能 通过 啊 应 信息 的 content 属性 来 
判断 ,因为 chardet. detect() 要 求 输入 字 肌 型 的 数据 。 
第 二 种 方法 是 通过 Response 对 象 的 apparent _ encoding 属性 。 对 于 上 述 例子 ， 


只 要 妈 置 r.encoding 王 T. apparent_encoding 即 可 。 


4.2.4 ”错误 和 异常 的 处 理 


1. 错误 及 错误 处 理 原 则 


见 频 讲 本 


在 爬虫 连接 和 请 求 URL 的 过 程 中 ,由 于 服务 从 .通信 和 链 路 等 原因 
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会 产生 各 种 错误 和 异常 ,例如 连接 超时 、 页 面 不 存在 、 网 站 关闭 .禁止 访问 等 。 为 了 提 
高 息 虫 的 鲁 棱 性 ,在 设计 时 需要 考虑 各 种 可 能 出 现 的 问题 ,并 针对 这 些 问 题 给 出 合理 
的 解决 方法 ,避免 怜 虫 程序 骨 溃 或 低 效 率 运 行 。 

在 HTTP 协议 中 规定 了 HTTP 请 求 中 的 各 种 状态 码 ,表示 服务 器 处 理 的 结果 。 在 
正常 情况 下 服务 端 给 出 一 个 值 为 200 的 状态 码 ,而 错误 和 异常 的 情景 有 很 多 种 ,通过 
不 同 的 HTTP 状态 码 来 标识 。 一 些 比较 毅 见 的 .需要 朴 虫 处 理 的 钳 误 状态 但 如 下 。 

(1) 404: 代表 “NOT FOUND”, 认 为 网 页 已 经 失效 ,因此 爬虫 应 当 删 除 它 ,并且 
如 条 爬虫 再 次 发 现 这 条 URL 也 不 要 再 抓 取 。 

(2) 503: 代表 “Service Unavailable”, 认 为 网 页 临时 不 可 访问 , 通 第 是 网 站 临时 
关闭 .带宽 有 限 等 会 产生 这 种 情况 。 在 短期 内 反复 访问 几 次 ,如 果 网 页 已 恢复 , 则 正常 
抓 取 ; 如 果 继 续 返 回 503 ,那么 这 条 URL 仍 会 被 认为 是 失效 链接 ,从 息 行 任务 中 删除 。 

(3) 403: 代表 “Forbidden”, 认 为 网 页 目前 茶 止 访问 ,这 条 URL 也 应 当 从 息 行 任 
务 中 删除 。 

(4) 301: 代表 “Moved Permanently”, 认 为 网 页 重 定 向 至 新 URL。 当 遇 到 站 点 
迁移 .域名 更 换 、. 站 点 改版 情况 时 ,使 用 301 返回 码 。 

另 一 种 异常 是 超时 ,在 疏 虫 获取 Web 页 面 时 可 能 由 于 服务 器 负荷 过 大 ,导致 啊 
应 延缓 ,因此 需要 适当 考虑 超时 处 理 , 否 则 容易 使 息 虫 一 直人 处 于 等 待 状态 。 这 也 是 的 
虫 程序 需要 处 理 的 场景 异常 之 一 。 

当 出 现 异 常 或 不 同 错误 状态 码 时 , 疏 虫 需要 进行 相应 的 处 理 , 主 要 的 原则 如 下 : 

(1) 确保 和 候 虫 不 月 演 , 候 虫 程序 不 能 因为 一 些 错 误 而 停止 运行 。 

(2) 确保 爬虫 的 整体 效率 不 会 严重 降低 , 疏 虫 不 会 因为 一 些 错 误 而 反复 进入 长 
时 间 的 等 待 。 

(3) 确保 爬虫 能 获取 到 的 页 面 或 质 源 完整 ,特别 是 对 于 一 些 Word 文档 .PDF 文 
档 、 图 像 等 Binary 类 型 的 文件 ,只 有 部 分 数据 是 无 法 进行 后 续 处 理 的 。 


2. 错误 处 理 方 法 


在 使 用 Python 实现 朴 虫 时 ,按照 try…except 的 形 却 来 捕获 错误 。 具 体 的 例子 
如 下 : 


Prog- 1- error -~ handle.py 


import requests 
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from requests. exceptions import ReadTimeout, ConnectionError, RequestException 


try: 
req = requests. get( 'http://www. fudan. edu. cn/',timeout = 1) 
print(req. status code) 
except ReadTimeout : 
# 超时 异常 
print( 'Timeout') 
except ConnectionFrror: 
# 连接 异常 
print( 'Connection error') 
except RequestExcept1on: 
# 请 求 异 常 
print( 'Error') 
else: 
if req, status code == 200: 
print(' 访 问 正常 !') 
井 将 爬 取 的 网 页 保存 在 本 地 
fb = open("t. html","wb") 
fb. write( req. content) 
fb. closel( ) 
if req. status_code == 404: 
print(' 页 面 不 存在 ! ') 
if req. status code == 403: 
print(' 页 面 禁止 访问 ! ') 
Te 


4.3 超 链 接 及 域名 提取 与 过 滤 


4.3.1 超 链接 的 类 型 


超 链 接 是 网 络 息 虫 采 集 Web 页 面 的 重要 依据 ,Web 页 面 中 的 超 链接 有 以 下 若干 
种 分 类 方法 ， 


”按照 链接 的 形式 不 同 可 以 分 为 绝对 链接 、 相 对 链接 和 书签 。 

。 按照 链接 的 路 径 指 癌 不 同 可 以 分 为 3 种 类 型 , 即 内 部 链接 、 锚 点 链接 和 外 部 
链接 。 

。 按照 超 链接 指 问 的 资源 不 同 可 以 分 为 Web 页 面 超 链接 .图 片 超 链 接 .视频 超 

。 按照 链接 的 存在 方式 不 同 可 以 分 为 动态 超 链 接 和 语 仿 超 链接 。 动 态 链 接 需 
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要 通过 JavaScript 等 脚本 来 获得 ,将 在 动态 页 面 采 集 部 分 进行 讲述 
以 下 是 一 些 例 于 : 
(1) <li><a href 二 "news/ztbd/" title 王 "专题 报道 "> 专题 报道 </a></li> 
这 是 一 个 相对 链接 .内 部 链接 .静态 链接 `Web 页 面 超 链接 。 
(2) < a href 二 "http://www. fudan. edu. cn"> 复 旦 主页 </a> 
这 是 一 个 绝对 链接 .静态 链接 `Web 页 面 超 链接 。 
(3) <p><img alt=""src="/uploadfile/ 2018/0802/20180802102933906. jpg"/></p> 
这 是 一 个 相对 链接 ,内容 链 接 .静态 链接 .图片 超 链接 。 
(4) <a href="# middle"> ABC </a> 
这 是 一 个 书签 链接 .静态 链接 , 即 指向 当前 页 面 的 middle 位 置 。 
可 以 看 出 ,对 于 网 络 爬 虫 而 言 ,不管 是 采集 Web 页 面 还 是 页 面 上 的 资源 ,通常 害 
要 处 理 的 是 相对 链接 和 绝对 链接 。 


4.3.2 提取 方法 
视频 讲解 

虽然 采用 基于 HTML 结构 的 各 种 解析 器 也 能 方便 地 获得 超 链接 ,但 是 超 链接 与 
其 他 Web 信息 不 一 样 , 它 具有 一 定 的 特殊 性 ,因此 有 必要 单独 来 描述 。 

与 Web 页 面 中 正文 等 其 他 信息 的 提取 不 同 , 超 链接 具有 显著 的 特征 模式 : 

(1) Tag 标签 为 a, 属 性 为 href。 

(2) Tag 标签 为 资源 名 称 , 例 如 img、audio, 属 性 为 scr。 

由 于 具备 一 定 模式 ,在 程序 设计 中 使 用 正则 表达 式 就 会 更 加 容易 。 正 则 表达 式 
是 一 种 用 来 标识 具有 一 定 信息 分 布 规律 的 字符 串 , 闻 用 来 进行 字符 串 匹 配 。 在 Web 
页 面 的 超 链 接 提取 中 ,基本 思路 就 是 把 网 页 作为 一 个 字符 流 的 文件 来 处 理 , 通 过 配置 
合理 的 正则 表达 式 去 匹配 待 抽取 的 信息 ,然后 抽取 其 中 的 信息 。 

这 种 方法 的 优点 是 通过 正则 表达 式 可 以 高 效 地 抽取 具有 固定 特征 的 超 链 接 以 及 
其 他 信息 ,准确 性 高 。 主 流 编 程 语 言 基本 上 都 提供 了 操作 正则 表达 式 的 封装 API, 所 
以 可 以 很 方便 .快捷 地 进行 Web 信息 提取 。 但 其 缺点 也 是 比较 明显 的 ,例如 不 能 抽 
取 那 些 未 知 特征 的 网 页 ; 必须 为 每 种 类 型 的 页 面 信息 编写 相应 的 正则 表达 式 ; 正则 
表达 式 的 编写 比较 复杂 ,编程 人 员 要 有 很 强 的 观察 能 力 才能 编写 出 高 效 的 正则 表 


达 式 。 
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在 Python 中 ,re 库 提 供 了 对 正则 表达 式 的 文 持 。 在 页 面 内 容 中 提取 超 链 接 的 一 
种 正则 表达 式 是 "http://[a-zA-Z0-9 八 .-] * ", 用 于 re. findall() 函数 中 ,但 这 个 表达 
式 只 能 提取 ”http:/ /2 开始 的 超 链 接 ,可 以 采用 以 下 完整 方法 : 

Prog - 2 - hyper - link - extraction. py 

import re 

s="'''<1i><a href = "http://news. sina. com. cn/o/2018 - 11 - 06/a75. shtm]l" target =" blank"> 

进 博 会 </a></1li >< 1i><a href = "http://news. sina. com. cn/o/2018 - 11 - 06/a76. shtml" 

target = ”blank"> 大 数据 </a></1li><1i><a href="/o/2018 一 11- 06/a7l5.shtml" target=" 

blank"> 进 博 会 </a></1i>'"' 

urls= re.findall('<a href ="[a— zA—-20—-9/AM\.\—-:]*"', s) 


for url in urls: 


print(urll9:len(url)— 1]) # 去 掉 <a href = "和 最 右边 的 ", 输 出 提取 到 的 超 链 接 


这 段 代 码 根 据 超 链接 的 标签 特征 < a href 来 进行 字符 串 的 提取 ,因此 可 以 提取 出 
绝对 链接 ,也 可 以 提取 出 相对 链接 。 对 于 图 像 等 其 他 类 型 的 资源 超 链 接 ,需要 根据 相 
应 的 特征 模式 进行 修改 。 同 时 ,相对 链接 需要 转换 成 为 绝对 链接 ,转换 的 方法 是 根据 
当前 页 面 的 URL 所 对 应 的 虚拟 目录 名 称 提 取 基 准 目 录 。 此 外 ,在 有 的 页 面 中 会 指出 
基准 目录 ,可 以 直接 提取 。 例 如 在 “http:/ /news. fudan. edu. cnynews/xxywy/2 的 head 区 
中 有 “< base href 二 "http;//news. fudan. edu. cn/"/>”, 这 表明 本 页 面 中 的 所 有 超 链 接 都 
以 “http://news. fudan. edu. cn/” 为 基准 。 因 此 可 以 通过 以 下 两 个 语句 来 获得 基准 : 

base = re findall( < base href ="[a—z0— 9] + "pt 


#pt 是 “http;//news.fudan. edu. cn/news/xxyw/” 页 面 的 HTML 内 容 
hbase = basel0ll12 | # 获得 基准 


4.3.3 ”遵守 Robots 协议 的 友好 疏 虫 


从 第 3 章 的 介绍 可 以 看 出 ,Robots 作为 一 个 Web 内 容 访问 许可 的 “图 琴 各 和 
协议 ,在 互联 网 数据 (特别 是 Web 信息 共享 ) 中 起 到 了 重要 作用 ,遵守 该 “ 
规范 有 利于 行业 的 健康 发 展 。 因 此 在 网 络 息 虫 设计 中 应 当 考 虑 Robots 协议 ,具体 表 
现在 以 下 若干 个 方面 

首先 ,robots. txt 是 网 络 疏 虫 采集 某 个 网 站 Web 内 容 之 前 应 当 读 取 并 解析 的 文 
件 。 网 络 疏 虫 与 Web 服务 器 建立 网 络 连 接 之 后 ,应 当 按照 以 下 流程 建立 访问 许可 。 

(1) 检查 虚拟 根 目录 下 是 否 存 在 robots. txt 文件 。 

(2) 如 果 服 务 需 返回 404 错误 ,表明 文件 不 存在 , 转 步 又 (6) 。 


| Python 私 虫 大 数据 采集 与 控 气 - 微 课 视 频 版 


(3) 如 果 存 在 , 则 将 robots. txt 文件 读 回 到 本 地 。 

(4) 解析 robots. txt 文件 中 的 每 个 记录 ,如果 疏 虫 的 User-Agent 在 这 些 记 录 中 ， 
则 读 取 记录 中 的 Disallow 或 Allow 部 分 。 如 果 是 一 个 未 知 的 User-Agent, 则 定位 到 
以 “User-Agent: * ”为 开始 的 记录 , 读 取 该 记录 的 Disallow 或 Allow 部 分 。 

(5) 根据 提取 到 的 Disallow 或 Allow 部 分 构建 许可 列表 。 

(6) 结束 。 

其 次 ,在 回 Web 服务 天 发 起 URL 页 面 内 容 请 求 之 前 ,应 当 根 据 前 面 得 到 的 许可 
列表 判断 该 URL 的 访问 是 否 受 限 。 具 体 方法 是 从 URL 中 提取 路 径 部 分 和 文件 名 部 
分 ,检索 许可 列表 ,判断 该 URL 是 否 为 Disallow, 如 果 是 , 则 把 虫 应 当 放 弃 本 次 URL 
的 请 求 。 除 了 这 些 基 本 功能 以 外 ,上 述 拓展 功能 中 的 抓 取 延 时 .访问 时 段 、. 抓 取 频 率 
都 可 以 进行 解析 ,并 在 URL 请 求 之 前 进行 必要 判断 ,从 而 决定 是 否 继续 访问 。 实 现 

了 访问 许可 的 息 忠 是 一 个 友好 息 虫 。 

用 户 可 以 使 用 Python 中 的 RobotFileParser 类 对 robots. txt 文件 进行 解析 ,并 获 
得 访问 许可 的 判断 ,以 下 是 对 该 类 的 说 明 。 

该 类 的 主要 方法 如 下 。 

。 set_url(url); 设置 指 癌 robots. txt 的 URL。 

。 read(): 谈 取 robots. txt。 

。 can fetch(useragent, url):; 指定 useragent 及 url, 判 断 useragent 的 疏 虫 是 否 

可 以 访问 url, 返 回 值 为 True 表示 可 以 访问 ,为 False 表示 不 允许 访问 。 

。 crawl delay(Cuseragent) : 返回 指定 useragent 的 息 虫 ,其 抓 取 延 时 的 值 。 如 果 

robots. txt 中 没有 为 useragent 指定 相应 的 抓 取 延 时 , 则 返回 None。 

。 request_rate(useragent): 返回 指定 useragent 的 息 虫 ,其 抓 取 频率 的 值 。 如 

果 robots. txt 中 没有 为 useragent 指定 相应 的 抓 取 频率 , 则 返回 None。 

下 面 的 例子 展示 如 何 使 用 该 类 来 设计 一 个 友好 疏 虫 ,这 里 只 展示 了 如 何 实现 
Disallow/Allow', 完 整 的 友好 爬虫 还 需要 实现 访问 时 段 .访问 频率 的 约定 。 

服务 器 的 robots. txt(https://item. taobao. com/robots. txt) 内 容 如 下 : 


User — Agent: Baiduspider 
Disallow:/ 


User — Agent : Googlebot 
Allow: /item. htm 
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Prog - 3 -~- robotparser - demo.py 
import urllib. robotparser 
import requests 


## 读 取 robots. txt 文件 

rp = urllib. robotparser. RobotFileParser!() 

rp. set url("https://itenm. taobao. com/robots. txt") 
rp. read( ) 


# 模拟 Baiduspider 
useragent = 'Baiduspider' 
url = 'https://item. taobao. com/item. htm? spm = a219r. 1m897. 14. 38. 5d2346e28r0731&id = 
522811099442&ns = 1&abbucket = 7" 
if rp.can fetch(useragent, url]l): 
file= requests. get (url|l) 


data = file. content # 读 取 全 部 
fb = open("bd— html","wb") # 将 讨 取 的 网 页 保存 在 本 地 
fb. writel(l data) 


fb. closel ) 


这 段 程序 模拟 Baiduspider 爬虫 ,运行 发 现 并 不 会 生成 bd-html 文件 ,这 是 因为 
在 robots. txt 文件 中 设置 了 Disallow:/。 而 当 User-Agent 设置 为 Googlebot 时 , 运 
行 后 会 发 现 生 成 了 文件 ,该 robots. txt 文件 所 定义 的 许可 允许 Googlebot 访问 /item. 
htm, 因 此 can_fetch(O) 解 析 时 获得 了 True 的 判断 。 

然而 有 一 些 网 站 ,除了 一 些 知 名 搜索 引擎 朴 虫 以 外 ,并 不 允许 不 知名 的 朴 虫 访 
问 。 那 么 是 否 可 以 将 自己 的 疏 虫 的 User-Agent 设置 为 知名 疏 虫 呢 ? 从 代码 的 角度 
看 ,没有 人 会 限制 使 用 什么 样 的 User-Agent, 例 如 上 面 的 例子 。 实 际 上 ,不 断 变换 
User-Agent 的 值 也 是 很 多 不 友好 疏 虫 为 了 骏 避 服务 硕 的 检测 而 第 用 的 做 法 。 但 这 
种 做 法 是 非常 不 可 取 的 , 它 扰乱 了 Web 服务 需 的 正音 判 断 , 可 能 使 杂种 知名 朴 虫 被 
检测 出 来 不 还 守 Robots 协议 而 产生 纠纷 。 在 这 种 情况 下 , Web 服务 天 束 需要 伦 更 
多 的 时 间 去 甄别 订 个 User-Agent 的 朴 虫 是 否 芮 是 该 知名 怜 虫 本 身 ,检测 的 方法 一 般 
有 在 Windows 平 台 上 通过 nslookup ip 命令 来 解析 ip 是 否 来 目 特 定 的 爬虫 ,在 Linux 
平台 上 通过 host ip 实现 ,通过 命令 输出 的 绪 采 指 回 的 主机 名 来 判断 。 


4.4 改行 策略 与 实现 


4.4.1 有 爬行 案 略 及 议 计 方法 


对 于 互联 网 大 数据 的 采集 ,通常 需要 面 对 海 量 的 Web 页 面 , 如 何 对 这 些 页 面 进 
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行 高 效 的 获取 是 爬虫 遇 到 的 主要 难点 之 一 。 所 请 高 效 , 最 基本 的 要 求 就 是 要 在 尽 可 
能 少 的 时 间 内 获取 尽 可 能 多 的 页 面 。 
扑 行 策略 是 指 对 息 行 过 程 中 从 每 个 页 面 解 析 得 到 的 超 链 接 进 行 安 排 的 方法 , 即 
按照 什么 样 的 顺序 对 这 些 超 链 接 进 行 息 行 。 在 面 对 大 量 页 面 时 ,按照 什么 顺 友 来 采 
集 页 面 尤 为 重要 ,对 于 网 络 息 虫 采集 页 面 而 言 , 息 行人 菏 略 是 解决 这 个 问题 的 核心 技术 
在 高 效 息 行 的 目标 下 , 扑 行 朱 略 的 设计 需要 考虑 以 下 限制 : 


1. 不 要 对 Web 服务 器 产生 太 大 的 压力 


与 使 用 浏览 器 访问 Web 服务 器 不 一 样 , 疏 虫 程序 在 获取 页 面 时 并 没有 很 长 的 延 
时 ,因此 大 量 并 发 的 访问 将 会 对 Web 服务 器 产生 压力 。 这 些 压 力主 要 体现 在 以 下 
方面 : 

(1) 与 Web 服务 大 的 连接 需要 占用 其 网 络 调 宽 

(2) 每 一 次 页 面 请 求 ,需要 从 硬盘 读 取 文件 。 

(3) 对 于 动态 页 面 , 还 需要 脚本 的 执行 。 如 果 启 用 Session ,对 于 大 数据 量 访问 需 
要 更 多 的 内 存 消耗 。 


2. 不 要 占用 太 多 的 客 岂 端 资源 


当 疏 里 程序 建立 与 Web 服务 需 的 网 络 连 接 时 ,同样 要 消耗 本 地 的 网 络 资 源 和 计 
算 资 源 。 如 果 太 多 的 线程 同时 运行 ,特别 是 一 些 长 时 间 的 连接 存在 ,或 者 网 络 连接 的 
超时 参数 设置 不 合适 ,很 可 能 导致 客户 端 有 限 的 网 络 资源 消耗 。 

抽象 化 是 解决 很 多 复杂 问题 的 方法 ,同样 可 以 把 复杂 的 页 面 内 容 及 页 面 之 间 的 
链接 抽象 成 为 一 张 图 ,忽略 页 面 中 复杂 的 结构 和 内 容 , 只 考虑 超 链接 。 如 图 4-2 所 
示 ,圆圈 表示 一 个 页 面 (或 网 络 资源 ) ,市 第 头 的 线 表 
示 一 个 节点 包含 指向 另 一 个 节点 的 超 链 接 。 因 此 互 
联网 上 的 Web 页 面 可 以 抽象 化 为 一 张 有 问 图 。 抽 象 
化 的 目的 是 为 了 将 问题 归结 到 现 有 的 理论 或 方法 所 能 
解决 的 框架 中 ,从 这 里 可 以 看 出 访问 每 个 节点 (页 面 、 
资源 ) 是 一 个 图 的 遍历 问题 。 在 图 理论 中 ,图 的 遍历 就 
是 用 来 解决 节点 的 访问 顺序 问题 。 图 的 遍历 算法 有 两 
种 , 即 深度 优先 算法 (DFS) 和 宽度 优先 算法 (BFS) 。 图 4-2 页面 链接 的 有 向 图 
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4.4.2 宽度 优先 和 深度 优先 策略 


1. 原理 


在 疏 虫 的 搜索 策略 设计 中 ,也 可 以 采用 深度 优先 和 宽度 优先 来 决定 URL 的 爬行 
顺序 。 在 某 个 给 定 的 初始 页 面 情 况 下 ,深度 优先 策略 优先 搜索 沿 着 该 页 面 上 的 超 
链 一 直 走 到 不 能 再 深入 为 止 , 然 后 返回 到 上 层 的 某 个 页 面 , 再 继续 选择 相应 的 
HTML 文件 中 的 其 他 超 链 接 。 宽 度 优 先 策略 则 优先 搜索 与 某 个 页 面 有 直接 链接 
的 所 有 页 面 

对 于 如 图 4-2 所 示 的 页面 链接 图 ,假如 从 证 点 A 开始 , 则 按照 这 两 种 遍历 方法 ， 
页 面 的 访问 顺序 分 别 如 下 。 

深度 优先 ; A 一 B 一 F 一 I 一 C 一 D 一 G 一 H 一 J 一 E 

委 度 人 导 先 x 下 一 及 一 人 一 站 一 本 一 下 一 在 一 下 一] 

但 是 实际 中 Web 页 面 及 其 链接 结构 非常 复杂 ,可 能 指向 本 站 ,也 可 能 指向 其 他 
网 站 ,页 面 中 包含 的 链接 数量 也 可 能 有 很 大 差别 。 对 于 如 图 4-3 所 示 的 Web 页 面 链 
接 ,g 和 1 分别 又 指向 了 a 和 f。 在 具体 的 策略 实现 中 ,如 何 管理 这 些 数 量 巨 大 的 
URL? 这 就 需要 有 合适 的 数据 结构 来 存储 待 访问 的 页 面 。 

按照 宽度 优先 的 策略 ,可 以 使 用 队列 作为 存储 结构 。 图 4-4 所 示 为 遍历 上 述 
面 集 时 队列 中 的 页 面 变化 情况 , 粗 体 黑色 字符 出 队 或 当前 爬行 的 URL。 粗 体 黑 色 字 
从 的 顺序 就 是 宽度 优先 遍历 的 方 点 顺序 , 即 abcdgefhi。 


= 
hh 
"m0 乒 站 
rm 全 人 

放生 


| 


图 4-3 页 面 链接 图 图 4-4 队列 中 的 页 面 变 化 
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按照 儿 度 优先 的 宋 略 , 驶 不 能 使 用 队列 了 ,需要 使 用 栈 。 图 4-5 是 过 万 上 述 页 面 
集 时 栈 中 页 面 的 变化 情况 ,其 中 粗 体 黑色 字符 代表 当前 访问 的 URL。 粗 体 黑 色 字 人 符 


的 顺序 就 是 帝 度 优先 遍历 的 和 点 顺 床 , 即 abcgfhieds 
a b C g 二 
b f h 
必 心 忆 必 


| =. 


局 


[= | h 
1 
一 OT— e 
. d 
图 4-5 栈 中 页 面 的 变化 情况 


2. Python 实现 方法 


宽度 优先 遍历 (BFS) 采 用 队列 来 实现 是 自然 的 做 法 , 即 新 抓 取 到 的 URL 放置 在 

队列 的 末尾 ,而 即将 抓 取 的 URL 从 队列 头 部 获得 , 即 先进 先 出 。 
深度 优先 遍历 (DFS) 可 以 用 递归 来 实现 ,直到 不 再 有 子 链 接 时 返回 上 一 层 。 当 
然 也 可 以 用 栈 来 实现 非 递 归 的 算法 , 即 先 进 后 出 。 

可 以 看 出 ,DFS 和 BFS 具有 高 度 的 对 称 性 ,因此 在 用 Python 实现 时 并 不 需要 将 
两 种 数据 结构 分 开 , 只 需要 构建 一 个 数据 结构 , 即 本 程序 中 的 UrlSequence。 

在 UrlSequence 中 设置 的 未 访问 序列 self. unvisited 可 以 完成 出 队列 和 栈 的 操 
作 ,前 者 通过 pop(0) 实 现 , 后 者 通过 pop() 实 现 。 

UrlSequence 类 中 存放 了 所 有 和 URL 序列 有 关 的 函数 ,维护 了 visited 和 
unvisited 两 个 序列 ,并 实现 了 对 URL 的 元 素 增加 、 删除 .计数 等 操作 ,可 以 为 怜 虫 的 
其 他 模块 提供 完整 的 封装 ,在 具体 实现 时 选择 一 种 遍历 方式 即 可 。 

以 下 是 该 类 的 定义 ,有 详细 的 备注 。 


UrlSequence. py 
class UrlSequence: 
# 初始化 
def init (self): 
# 已 经 访问 过 的 URL 列表 
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self.visited = [] 
# 未 访问 过 的 URL 列表 


self. unvisited = [] 


# 获得 已 经 访问 的 URL 列表 
def getVisitedUr]( self): 
return self. visited 


# 获得 未 访问 的 URL 列表 
def getUnvisitedUr] (self ): 
return self. unvisited 


# 当 访 问 完 一 个 URL 之 后 ,将 它 加 入 到 visited 序列 ,表示 该 URL 已 经 被 访问 过 了 
def Visited Add(self, ur]l): 
self.visited.append(ur]) 


# 将 一 个 URL 从 已 经 访问 的 列表 中 删除 
def Visited Remove(lself, url]l): 
self. visited. remove(ur]l) 


# 出 队列 操作 ,适合 于 宽度 优先 遍历 
# pop( ) 函 数 在 默认 情况 下 返回 队列 最 末尾 的 一 个 元 取 , 因 此 要 采用 pop(0) 
def Unvisited Dequeue( self): 
LTY: 
return self. unvisited. pop(0) 
EXCept : 
return None 


# 出 栈 操作 ,适合 于 深度 优先 遍历 
def Unvisited Pop(self) : 
try: 
return self. unvisited. pop( ) 
except: 
return None 


# 解 析出 来 的 新 URL, 加 入 到 未 访问 的 URL 列表 中 ,但 要 保证 它们 不 在 visited 和 unvisited 
列表 中 ,以 免 重复 抓 取 
def Unvisited Add(self，url) : 
if url |! = "" and url not in self.visited and url not in self. unvisited: 


self. unvisited. append(ur]) 


井 返 回 已 访问 列表 的 元 素 个 数 
def Visited Count(self) : 
return len(self. visited) 


# 返回 未 访问 列表 的 元 素 个 数 
def Unvisited Count( self): 
return len(self. unvisited) 
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井 判 断 未 访问 列表 是 否 为 空 
def UnvisitedIsEmpty( self): 
return len(self.unvisited) == 0 


关于 该 类 的 调用 ,完整 的 Python 程序 代码 可 以 参见 crawler-strategy 于 目录 中 
的 其 他 文件 。 


4.4.3 基于 PageRank 的 重要 性 排序 


每 个 网 站 都 有 一 个 首页 ,从 链接 的 角度 来 看 ,首页 最 主要 的 特征 就 是 链接 数量 
大 。 不 管 是 采用 深度 优先 还 是 宽度 优先 ,在 这 种 情况 下 都 需要 在 队列 或 栈 中 保存 很 
多 URL。 这 些 URL 的 人 队 或 和 人 栈 顺序 对 于 爬虫 性 能 有 一 定 的 影响 ,特别 是 在 大 规 
模 分 布 式 的 情况 下 。 分 布 式 系统 中 每 个 机 器 的 性 能 好 坏 不 一 ,设计 者 总 是 希望 把 重 
要 员 面 的 爬 行 分 配给 性 能 好 的 机 需 , 以 提高 怜 虫 的 整体 性 能 ,因此 需要 有 一 种 方法 来 

PageRank 算法 是 一 个 经 典 算法 ,来 自 于 Google 搜索 引擎 ,是 一 种 根据 网 页 之 间 
相互 的 超 链接 计算 页 面 级 别 的 方法 。 它 由 Larry Page 和 Sergey Brin 在 20 世纪 90 
年 代 后 期 发 明 。 由 于 它 解决 了 网 络 图 中 每 个 节点 重要 性 的 量化 计算 方法 ,所 以 在 许 
多 可 以 抽象 为 网 络 连接 图 的 应 用 中 得 到 广泛 采用 ,在 大 数据 分 析 中 也 得 到 了 广泛 应 
用 。 一 些 具 有 代表 性 的 应 用 场景 如 下 。 

(1) 计算 Web 页 面 的 重要 性 : 将 每 个 页 面 看 作 一 个 节点 ,页 面 之 间 的 链接 看 作 
节点 之 间 的 连接 关系 ,由 此 构成 了 一 张 有 回 图 。PageRank 算法 可 以 在 这 张 图 上 计算 
每 个 节点 (Web 页 面 ) 的 重要 性 。 

(2) 社交 网 络 中 的 重要 人 物 识别 : 将 社交 网 络 上 的 每 个 人 看 作 一 个 市 点 ,人 与 人 
之 间 的 关系 就 是 节点 之 间 的 连接 关系 ,而 这 种 人 际 关 系 可 以 是 关注 ,粉丝 ,由 此 构成 
了 一 张 有 问 图 。PageRank 算法 计算 得 到 每 个 人 在 社交 网 络 中 的 重要 程度 。 

(3) 文本 中 的 关键 词 提取 : 把 文本 中 的 每 个 词汇 当 作 一 个 市 点 ,词汇 和 词汇 之 间 
的 关系 (例如 在 一 个 句子 中 的 先后 等 ) 作 为 方 点 之 间 的 连接 关系 。 由 此 PageRank 算 
法 可 以 用 来 计算 词汇 的 重要 性 ,从 而 选择 特征 词 。 

很 多 文献 质料 百 接 给 出 了 PageRank 算法 的 计算 公式 ,公式 虽然 简单 ,但 是 要 准 
确 理解 并 不 容易 。 这 里 以 一 个 实例 来 解释 。 假 如 有 4 位 小 朋友 分 糖果 ,并 假设 糖果 


第 4 章 ”普通 他 虫 页 面 采集 技术 与 Python 实 现 | 95 


可 以 任意 分 ,分 糖果 的 规则 如 下 : 

(1) A 把 自己 的 糖果 平均 分 给 B、C。 

(2) B 把 自己 的 糖果 全 部 给 D。 

(3) C 把 目 己 的 糖果 的 一 半分 给 D, 男 一 半 目 己 留 着 。 

(4) DD 把 日 己 的 糖果 平均 分 给 A、B、C。 

要 求 计算 每 轮 结束 后 每 位 小 朋友 的 糖果 数量 ,并 判断 按照 这 样 的 规则 不 断 分 下 
去 ,最终 每 位 小 朋友 的 糖果 数量 是 否 会 不 再 变化 。 

首先 按照 构图 思想 ,可 以 用 一 个 有 向 图 来 表示 这 个 游 
戏 中 的 人 和 分 配 规 则 。 将 这 4 位 小 朋友 作为 图 的 节点 , 节 
点 之 间 的 关系 是 糖果 的 分 配方 向 和 分 配 的 比例 ,如 图 4-6 
所 示 , 这 是 一 个 有 问 图 。 图 4-6 游戏 的 有 向 图 表示 

在 图 中 ,节点 的 连接 权重 可 以 用 一 个 矩阵 (4) 来 表示 , 即 : 
0 0 0 1/3 


1/2 0 0 1/3 
A = (4-1) 
ll/2 0 1/2 1/3 


L0 1 1/2 0 
矩阵 的 第 一 列表 示 太 后 A 把 目 己 的 糖果 的 1/2 分 给 B、1/2 分 给 C, 依 此 类 推 。 
用 p(x) 表 示 x 拥有 的 痒 果 数 。 按 照 这 些 规则 ,在 每 轮 分 配 结 束 之 后 ,每 个 人 拥有 的 全 
于 数量 分 别 是 : 


p(A) =1/3* p(D) (4-2) 
p(B)=1/2xp(A)+1/3*p(D) (4-3) 
PCC) 王 1/2x*Pp(A) 十 1/2x*pGCC) 十 1/3 关 PCD) (4-4) 
p(D) =p(B) 二 1/2 x* p(C) (4-5) 


这 里 需要 注意 的 是 , 式 (4-2) 一 (4-5) 左 边 的 p 表示 某 轮 近代 之 后 的 值 ,右边 的 p 
表示 上 一 轮 的 值 。 因 此 可 以 把 这 种 和 迭代 写成 以 下 式 子 ,其 中 也 表示 p(A)、p(B)、 
p(C) 、.p(D) 构 成 的 列 向 量 ,P; 表示 第 i 轮 的 列 向 量 值 。 

Pn 一 AP， (4-6 ) 

从 形式 上 看 ,这 是 一 个 典型 的 Markov 链 模 型 。 

在 设 定 每 个 人 初始 的 糖果 数 均 为 10 的 情况 下 ,经 过 计算 ,可 以 得 到 迭代 过 程 中 
4 位 小 朋友 的 糖果 数量 变化 图 ,如 图 4-7 所 示 , 其 中 系列 1.2、3、4 分 别 表示 A、B、C、D。 
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图 4-7 ”和 迭代 过 程 的 变化 情况 

可 以 看 出 在 这 里 给 定 转移 矩阵 4 的 情况 下 ,最 后 每 个 人 得 到 的 糖果 数量 不 再 变 
化 ,分别 是 4.71、7.06、14.12、14.12。 此 为 收 伍 状态 。 

根据 Markov 链 的 性 质 , 在 总 数 40 不 变 的 情况 下 ,每 个 人 初始 的 糖果 数 即 使 不 
同 ,最 终 经 过 在 干 轮 重 新 分 配 后 ,每 个 人 的 糖果 数 都 会 收敛 到 上 述 值 。 这 就 是 这 个 
Markov 链 的 第 二 个 特征 , 即 收敛 值 与 初始 值 无 关 。 

这 个 例子 其 实 就 是 PageRank 算法 的 最 初版 本 。 

将 这 个 实例 的 思想 引入 到 Web 页 面 中 ,并 假设 某 个 页 面 的 重要 性 平均 分 配给 它 
所 指 回 的 每 个 页 面 。 对 于 页 面 x ,了 .表示 指 加 wx 的 所 有 页 面 集合 ,那么 x 的 重要 性 
值 CPR 值 ) 可 以 按照 式 (4-7) 计 算 : 


R 
的 本 和 生生 下 全 全 
iep, L(v) 


其 中 ,L (wv) 表 示 页 面 v 所 指 癌 的 页 面 个 数 。 

但 是 ,引入 到 Web 页 面 的 链接 图 分 析 中 ,需要 考虑 一 些 具体 情 帝 : 

(1) 用 户 在 浏览 了 页面 时 ,可 能 会 直接 输入 C 的 网 址 ,虽然 BB 没有 指 问 C 的 超 

(2) 某 个 页 面 除了 可 以 通过 指 回 它 的 超 链接 进入 外 ,还 有 其 他 途径 可 以 二 接 访 
问 该 页 面 , 例 如 通过 浏览 各 提供 的 收藏 来 。 

因此 页 面 的 重要 性 应 当 还 有 一 部 分 要 留 给 这 些 和 直接 访问 方式 。 在 后 来 的 版 本 
中 ,PageRank 算法 给 出 了 新 的 太后 权重 计算 方法 ,算法 引入 一 个 参数 4 , 称 之 为 阻 
尼 因 子 。 这 样 对 于 某 个 页 面 , 其 PR 值 就 可 以 改 与 成 为 : 


veB. L (v) 


(4-7) 


(4-8) 
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其 中 ,4d 的 取 值 一 般 设 定 为 0.85, 这 样 可 以 认为 其 他 途径 的 访问 占 0. 15。 
后 来 有 人 认为 一 个 页 面 被 访问 的 随机 性 应 当 来 自 其 他 所 有 页 面 ,因此 计算 公式 
被 修正 为 式 (4-9): 


1—d Fi 
PR(W) =~ +4d)) PR (wv, 


和 Lv) 

其 中 N 是 搜索 引擎 或 候 虫 收录 的 页 面 总 数 ,把 这 种 随机 访问 平均 分 配给 所 有 页 面 。 
对 于 该 式 的 理解 ,关键 在 于 阻尼 因子 的 含义 和 意义 , 它 体现 了 数学 的 简洁 与 高 

效 。 以 上 述 例子 来 说 明 , 实 际 上 可 以 认为 是 在 图 4-6 中 加 入 一 个 虚拟 节点 (x) ,该 节 

点 与 其 他 节点 均 有 双向 链接 ,从 而 构成 新 的 网 络 图 ,如 图 4-8 所 示 。 


(4-9) 


图 4-8 加 入 虚拟 节点 后 的 网 络 图 


对 于 该 网 络 图 ,转移 矩阵 (4) 形 式 如 下 : 


0 0 0 d/3 (1 一 gd)/4 
d /2 0 0 d/3 (1—ad)/4 
A=|4d/2 0 d/2 dd/3 (1 一 Cd)V/4 (4-10) 
0 d d /2 0 (1—a)/4 
lI—d 1l1—d 1—d 1l1—d d 


因此 仍 可 以 归结 为 式 (4-10) 表 示 的 Markov 链 。 

在 式 的 两 边 都 含有 PR 值 ,这 是 一 种 迭代 计算 ,目前 已 经 证 明了 这 种 计算 过 程 的 
收敛 性 ,与 每 个 证 点 的 初始 PR 值 没有 关系 ,收敛 时 的 PR 值 即 为 每 个 页 面 的 PR 值 。 
理论 上 ,PR 算法 的 收敛 性 证 明 是 基于 Markov 链 , 要 求 它 的 状态 转移 矩阵 4 满足 以 
下 3 个 条 件 。 

(1) A 为 随机 和 矩阵: 4. 


E 阵 的 所 有 元 素 都 大 于 等 于 0, 并 且 每 一 列 的 元 素 和 都 为 
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] ,满足 概率 定义 。 

(2) A 是 不 可 约 的 : 当 且 仅 当 与 4 对 应 的 有 回 图 是 强 连 通 的 。 对 于 每 一 个 节点 
对 ,wv ,存在 从 到 w 的 路 径 。 

(3) 4 是 非 周期 的 : 非 周 期 性 指 Markov 链 的 状态 的 迁移 不 会 陷 和 人 循环 ,随机 过 
程 不 是 简单 循环 。 

据 此 可 以 判断 任意 一 个 网 络 上 PR 值 是 否 收 敛 。 

实际 上 ,从 息 虫 获取 页 面 的 过 程 来 看 ,并 不 是 所 有 页 面 获取 完毕 后 再 去 计算 它们 
的 PR 值 , 而 是 一 个 边 爬 行 边 进行 计算 的 动态 过 程 。 这 种 动态 计算 可 能 产生 一 定 偏 
差 ,特别 是 在 爬行 的 初始 阶段 。 但 是 , 疏 虫 采集 的 页 面 数量 越 来 越 多 ,页 面 之 间 的 链 

当 于 稳定 ,对 页 面 重要 性 的 估算 就 会 越 来 越 准确 。 


4.4.4 ”其 他 策略 


Abiteboul 等 人 于 2003 年 提出 的 在 线 页 面 重要 性 指数 (On-Line Page Importance 
Computation,OPIC) 是 一 种 更 适合 息 虫 动态 计算 页 面 重要 性 的 方法 。 在 OPIC 中 ,每 
一 个 页 面部 有 一 个 相等 的 初始 权 值 ,并 把 这 些 权 值 平均 分 给 它 所 指 同 的 页 面 。 这 种 
算法 与 Pagerank 相似 。 在 页 面 抓 取 过 程 中 ,通过 前 问 链 接 将 这 种 权 值 平均 分 给 该 网 
页 指向 的 所 有 页 面 (分 配 过 程 一 次 完成 ) ,而 爬虫 在 疏 取 过 程 中 只 需 优 先 抓 取 权 值 较 
大 的 页 面 。 但 是 ,由 于 Web 的 实际 深度 最 大 能 达到 17 层 , 网 页 之 间 四 通 八 达 , 存 在 
复业 的 页 面 链 接 结 构 , 所 以 OPIC 在 线 计算 仍 无 法 准确 地 计算 每 个 页 面 的 优先 级 。 
如 图 4-9 所 示 ,采用 宽度 优先 策略 ,爬虫 从 页 面 1 开始 ,图 Ca) 是 上 时 刻 解析 到 的 4 个 
页 面 链接 ,这 4 个 页 面 的 重要 性 是 相同 的 。 图 (b) 对 应 上 十 1 时 刻 , 疏 虫 解 析 到 两 个 新 
的 指向 页 面 5 的 超 链接 ,从 而 增加 了 该 页 面 的 重要 性 。 


(a) 1 时 刻 (b) t+1 时 刻 
图 4-9 ”页面 重要 性 动态 更 新 的 情况 
除了 上 述 提 到 的 候 虫 搜索 案 略 外 ,还 有 一 种 称 为 合作 抓 取 的 宋 略 也 经 第 被 采纳 。 
这 种 方法 是 由 站 点 主动 品 息 虫 提供 站 点 内 各 个 页面 的 重要 性 信息 。 通 过 这 种 信息 ， 
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网 站 中 新 增加 或 经 常 更 新 的 页 面 内 容 能 及 时 地 被 前 来 候 行 的 候 虫 所 获取 ,提高 息 虫 
的 执行 效率 。 

这 种 策略 是 通过 Sitemaps 协议 2 来 实现 的 。 该 协议 由 Google 于 2005 年 提出 ， 
目前 已 经 得 到 Yahoo、 Bing 等 搜索 引擎 系统 的 支持 , 比 Robots 协议 更 强大 一 些 。 
Sitemaps 协议 是 一 种 网 站 和 搜索 引擎 之 间 的 网 站 页 面 纺 构 共享 协议 ,提供 了 一 种 网 
站 告知 搜索 引擎 候 虫 系统 可 供 仆 行 的 网 址 列表 ,方便 搜索 引擎 候 虫 能 够 快速 了 解 网 
站 的 目录 结构 。 

基于 该 协议 ,首先 由 网 站 向 搜索 引擎 提交 sitemap. xml 文件 , 它 是 一 个 包含 了 某 
网 站 所 有 页 面 的 XML 格式 文件 。 搜 索引 擎 在 获得 该 文件 后 就 可 以 对 文件 中 指定 的 
每 个 URL 进行 分 析 , 从 而 决定 哪些 应 当 被 仆 行 。 这 样 ,搜索 引 警 的 仆 虫 系统 就 不 必 
对 网 站 的 页 面 逐 一 地 分 析 抓 取 ,提高 了 效率 ,也 降低 了 对 服务 器 资源 的 占用 。 

除了 将 该 文件 上 传 到 搜索 引擎 系统 外 ,也 可 以 放 在 Web 站 点 的 根 目 录 下 面 , 这 
样 除 了 Google 等 大 型 搜索 引擎 的 爬虫 外 ,其 他 普通 爬虫 可 以 先 到 根 目 录 下 检查 并 解 
析 该 文件 ,从 而 可 以 发 现 站 点 管理 员 的 意图 。 

sitemap. xml 文件 是 该 协议 最 重要 的 部 分 , 它 是 严格 按照 XML 语言 编写 的 。 在 
该 文件 中 使 用 了 6 个 标签 ,其 中 关键 标签 包括 URL 地 址 、 更 新 时 间 、 更 新 频率 和 索引 
优先 权 。Google 提供 了 该 文件 的 详细 写法 。 一 个 样 例如 下 : 


<?xml version = "1.0" encoding = "utf — 8"?><?xml — stylesheet type = "text/xsl" href = 
"http://www. uedsc. com/wp - content/plugins/google - sitemap - generator/sitemap. xs1"?> 
<urlset xmlns: xsi = "http://www. w3. org/2001/7XMLSchema - instance" xsi: schemaLocation = 
"http:// www. sitemaps. org/schemas/sitemap/0. 9 http://www. sitemaps. org/schemas/sitemap/ 
0.9/sitemap. xsd" xmlns = "http://www. sitemaps. org/schemas/sitemap/0.9"> 
<url> 
< loc> http://demo. nds. fudan. edu. cn/</loc > 
< lastmod > 2013 - 06 - 13 </lastmod > 
< changefreq > always </changefreq > 
<priority> 1 </priority> 
nrL 
<url> 
< loc > http://demo. fudan. edu. cn/channels/view/108 </loc > 
< lastmod> 2013 - 06 - 13 </lastmod> 
< changefreq > always </changefreq > 
<priority> 0.9 </priority> 
</url> 
</urlset > 


https://www. xml-sitemaps. com,/about-sitemaps. html 
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在 该 文件 中 ,<loc></loc > 指定 了 URL 地 址 ; lastmod 指出 了 该 页 面 文件 上 次 修 
改 的 日 期 ,采用 W3C Datetime 格式 ; changefreq 表示 页 面 可 能 的 更 新 频率 ,有 效 取 
值 为 always、hourly、daily、weekly、monthly、yearly、never; priority 描述 的 是 文件 中 

站 定 的 优先 级 ,相对 于 网 站 上 的 其 他 页 面 而 言 ,有 效 值 范围 从 0.0 到 1.0。 

在 sitemap. xml 文件 创建 好 之 后 ,就 可 以 提交 给 各 个 搜索 引擎 。 例 如 向 Google 
提交 (https://www. google. com/ webmasters/ tools/home? hl 二 zh-cn) ,需要 申请 Google 
账号 登录 后 操作 , 回 Bing 提交 的 地 址 是 “http://www. bing. com/ toolbox/ webmaster”。 


4.4.5 ”有 息 行 策略 设计 的 综合 考虑 


不 同 网 站 上 的 Web 页 面 链接 图 有 目 己 独 有 的 特点 ,因此 在 设计 扑 行 束 略 时 需要 
进行 一 定 的 权衡 , 考 夸 多 方面 的 影响 因 系 ,包括 爬虫 的 网 络 连接 消耗 以 及 对 服务 闯 造 
响 等 ,一 个 好 的 候 虫 需要 不 断 地 结合 Web 页 面 链接 的 一 些 特征 来 进行 优化 


以 下 是 设计 闹 级 怒 行 宁 上 略 时 需要 考虑 的 因素 : 

(1) 对 于 怜 里 来 说 , 疏 行 的 初始 页 面 一 般 是 某 个 比较 重要 的 页 面 , 例 如 茶 个 公司 
的 首页 .新 闻 网 站 的 首页 等 。 根 据 网 页 设计 部 署 的 用 户 体验 方面 的 原则 ,重要 的 链接 
大 多 会 放 在 首页 上 ,由 此 可 以 做 这 样 的 假设 , 即 与 某 个 页 面 有 直接 连接 的 所 有 页 面相 
对 该 页 面 而 言 , 其 重要 性 要 比 与 该 页 面 没 有 直接 连接 的 页 面 大 。 此 外 ,一 般 情况 下 ， 
在 进行 网 站 页 面 结构 部 署 时 会 将 较 重 要 的 页 面 放 在 离 首 页 较 近 的 层次 上 ,这 也 是 为 
了 避免 用 户 点 击 很 多 层 页 面 之 后 才 获 得 重要 的 内 容 。 也 就 是 说 ,在 同一 个 站 点 内 部 ， 
每 深入 一 层 , 页 面 的 价值 或 重要 性 就 会 有 所 下 降 。 根 据 这 两 个 合理 的 假设 ,采用 宽度 
优先 策略 , 束 能 快速 获得 重要 页 面 。 

(2) 从 息 虫 管理 众多 页 面 超 链 接 的 效率 来 看 ,基本 的 深度 优先 策略 和 宽度 优先 
策略 都 有 较 高 的 效率 。 宽 度 优先 策略 可 以 通过 简单 的 队列 来 实现 ,队列 的 操作 非常 
简单 。 例 如 对 于 图 4-2 所 示 的 结构 ,在 解析 完 页 面 A 之 后 可 以 得 到 B.C、D\E 儿 个 超 
链接 , 即 可 以 将 它们 放 入 队列 ,然后 由 Web 服务 器 连接 器 从 队列 的 另 一 端 逐 个 读 出 
需要 爬行 的 页 面 URL。 当 解析 到 页 面 B 时 ,再 把 指 问 下 的 超 链接 放 入 队列 。 这 种 结 
构 不 需要 复杂 的 爬行 任务 管理 ,实现 方法 较为 简单 .高效 ,并 且 也 有 利于 多 个 怜 虫 并 
行 仆 取 的 实现 。 
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(3) 从 页 面 优先 级 的 角度 看 ,有 息 虫 虽然 以 某 个 指定 的 页 面 作为 候 行 的 初始 页 面 ， 
但 是 在 确定 下 一 个 要 扑 行 的 页 面 时 总 是 希望 优先 级 高 的 页 面 先 被 息 行 。 对 于 上 述 宽 
度 优先 策略 的 例子 ,B.C、D、E 几 个 页 面 其 实 并 没有 规定 它们 被 候 行 的 顺序 ,在 页 面 
数量 不 大 的 情况 下 ,这 种 爬行 顺序 的 影响 并 不 大 。 但 是 当 页 面 数 量 很 大 时 ,例如 对 于 
新 闻 门 户 网 站 ,其 第 二 层 页 面 数量 就 很 大 ,决定 爬行 顺序 对 于 提高 朴 虫 效率 就 变 得 很 
关键 。 这 时 候 , 就 可 以 综合 考虑 页 面 的 PageRank 排序 。 

(4) 由 于 页 面 之 间 的 链接 结构 非常 复杂 ,可 能 存在 双向 链接 \、 环 链接 等 情景 。 在 
如 图 4-10 所 示 的 例子 中 ,从 页 面 1 开始 ,采用 宽度 优先 策略 的 爬行 顺序 为 1263451， 
而 采用 深度 优先 策略 的 仆 行 顺序 是 1234516。 不 管 是 宽度 优先 策略 还 是 深度 优先 策 
略 ,都 会 在 页 面 内 部 形成 菜 种 环 状 , 称 为 候 虫 陷入 (Trapped)。 因 此 ,在 过 历 过 程 中 ， 
对 跳 径 上 的 每 个 页 面市 点 都 需要 进行 “是 否 息 行 过 ”的 检查 。 

(5) 疏 虫 在 对 有 菏 个 Web 服务 右上 的 页 面 进 行 疏 行 时 需 
要 先 建立 网 络 连接 ,占用 主机 和 连接 资源 ,因此 适当 对 这 种 
资源 占用 进行 分 配 是 非常 必要 的 。 一 些 提 供 HTTP 访问 的 
API 由 于 做 了 高 层 封 装 , 对 于 每 个 URL ,不 管 是 否 来 和 目 同 一 
个 网 站 ,可 能 要 重新 进行 Socket 连接 的 整个 过 程 ,取决 于 
Web 服务 器 所 支持 的 连接 持久 化 能 力 。 图 4710 让 各 隔 八 问题 

如 图 4-11 所 示 ,假设 息 虫 在 某 个 网 站 上 的 1 页 面 中 ,解析 出 千 干 个 超 链 接 , 这 
超 链接 分 别 指向 外 部 网 站 A`.B`C。 在 理想 情况 下 , 怜 虫 只 要 建立 4 个 Socket( 即 与 
A、B、C 和 本 网 站 的 连接 ) 即 可 ,然后 在 相应 的 Socket 连接 上 发 送 URL 请 求 。 但 是 ， 
如 果 使 用 封装 程度 过 高 的 API, 可 能 会 产生 更 多 的 Socket 网 络 连接 。 在 同一 个 时 间 
段 内 ,这 种 爬虫 端 所 需要 的 网 络 连 接 个 数 可 能 会 剧 增 , 从 而 严重 影响 爬虫 的 整体 


图 4-11 本 地 网 络 连接 资源 的 优化 


Co) 
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总 之 ,目前 宽度 优先 策略 是 常用 的 息 虫 搜索 策略 ,各 种 候 行 策略 也 并 非 只 有 优 
点 ,没有 缺点 ,因此 实际 上 采用 混合 策略 的 情况 可 能 会 更 普遍 。 结 合 优先 级 排序 就 是 
关键 的 一 种 途径 ,考虑 客户 端 网 络 资源 对 抱 行 任务 进行 优化 也 是 一 个 值得 深入 探讨 
的 课题 。 


思考 题 


1. 摘 述 爬虫 的 体系 态 构 。 

2. 学 习 使 用 requests 进行 页 面 抓 取 的 过 程 。 

3，UserAgent 的 含义 是 什么 ?在 和 候 虫 程序 设计 中 是 否 可 以 随便 填写 User-Agent 
的 值 ? 

4. 爬虫 抓 取 一 个 页 面 时 而 望 控制 在 两 秒 之 内 ,如 果 在 两 秒 之 内 服务 需 没 有 响 
点 ,请 给 出 告警 。 

5. 判断 一 个 页 面 中 是 否 存 在 base 属性 ,如 末 有 ,请 使 用 该 属性 将 相对 链接 转换 
成 为 绝对 链接 。 

6. 给 定 页 面 链接 图 , 写 出 候 忠 在 深度 优先 和 和 客 度 优 先 两 种 息 行 素 


7. 人 简 述 PageRank 算法 的 基本 思想 。 
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5.1 动态 页 面 内 容 的 生成 与 交互 


5.1.1 页 面 内 容 的 生成 方式 


动态 页 面 区 别 于 静 信 页面 的 最 主要 特征 是 页 面 内 容 的 生成 方式 ,动态 页 面 的 内 
容 的 生成 方式 可 以 分 成 两 尖 , 即 服务 硕 病 生成 、 客户 闪 生成 。 


1. 服务 器 端 生成 


采用 这 种 方式 进行 管理 的 内 容 包括 新 闻 信 息 .通知 .广告 等 , 它 是 Web 页 面 内 容 
生成 的 主要 途径 。 这 种 方式 可 以 很 方便 地 进行 内 容 管理 ,目前 市 场 上 有 很 多 
Web 内 容 管理 系统 (Content Management System ,CMS) 就 提供 了 在 后 台 进 行 Web 
内 容 管 理 的 平台 。 通 过 这 种 方式 可 以 方便 地 应 对 Web 内 容 繁 杂 、 制 作 发 布 .扩展 性 
等 方面 的 问题 。 

在 这 种 内 容 生 成 方式 中 ,页 面 的 主要 内 容 与 页 面 的 结构 和 表现 方式 一 般 是 分 离 
的 。 页 面 主 要 内 容 可 以 存储 在 各 种 数据 库 系 统 中 ,而 决定 结构 和 表现 方式 的 HTML 
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标签 和 语句 则 是 存储 在 Web 服务 器 上 ,因此 在 应 用 架构 上 采用 的 是 Client/Server/ 
Database 模式 。 在 Web 页 面 中 使 用 脚本 语言 连接 数据 库 . 向 数据 库 发 起 查询 请 求 、 
对 查询 结果 进行 格式 化 等 ,最 终生 成 包含 具体 内 容 的 页 面 ,并 推送 给 客户 端 。 

在 Web 页 面 中 经 常 使 用 的 脚本 语言 有 JSP、ASP、PHP 等 ,使 用 这 些 语言 连接 数 
据 库 .查询 数据 库 、. 生 成 给 用 户 的 HTML 文档 。 一 个 简单 的 例子 是 用 户 登录 ,用 户 访 
问 login. htm ,在 输入 用 户 名 和 和 密码 之 后 ,将 这 些 信息 提交 给 results. jsp, 在 该 文件 中 
进行 脚本 的 动态 执行 ,从 而 完成 上 述 过 程 。 

1) login. htm 


<% (0 page contentType = "text/htm] ;charset = gb2312" %> 
< htm] xmlns = "http://www.w3.org/1999/xhtml"> 
< head > 
<title> 登 录 </title> 
</head > 
< body > 
< form id= "loginForm” name = "login" action = "results. jsSp”methoc = "get" 
target = “blank > 
<p> 用 户 名 </p> 
< input type = "text" name = "username" size= "44"> 
<p> 密 个 </p> 
< input type = "text” name = "password" size= 44 > 
< input type = "submit" value = "提交 " /> 
</form > 
</ body > 
</ htm] > 


2) results. 1Sp 


<% (0 page contentType = "text/html ;charset = gb2312" %> 
<% (WV page import = "java. sql. ResultSet, java. sql. Statement, java. sql. SQLException, java. 
sql. Connection, java. sql. DriverManager, Javax. servlet. *, jJavax. SerVlet. http. * , java. io. *, 
java. net. URLEncoder” > 
二 第 
String username, passwd.; 
username = request.getParameter("username" ); 
passwd = request. getParameter("password" ); 
String drivername = "com. microsoft. jdbc. sqlserver. SQLServerDriver"; 
String uname = "sqlinjection"; 
String userpassword= "sql",; 
String dbname = "sqlinject"; 
String url = "jdbc:microsoft:sqlserver://127.0.0.1:1433;DatabaseName = sql"; 
Class. forName( drivername). newlInstance( ) ; 
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Connection conn = DriverManager. getConnection(ur1， sqluser ， "sql1234" ); 
Statement stmt = conn. createStatement( ) ; 
ResultSet rs = stmt. executeQuery (" "select * from users Where username = '" + username+"' 
and passwd = " + passwd" ); 
if(rs. next()}1 
out. print("< center >< h3 > 登录 成 功 !< h3 ></center >"); 
} else { 
out. print("< center >< h3 > 登录 不 成 功 !< h3 ></center >" ) ; 
} 
stmt. close( ); 
conn. close( ) ; 
第 > 


为 了 执行 这 些 脚 本 代码 ,在 数据 库 中 存储 有 users 表 , 该 表 包 含 两 个 字段 , 即 
username 和 passwd。 这 样 可 以 在 后 人 台 配 置 users 表 中 的 记录 ,从 而 来 决定 返回 给 浏 
览 融 的 信息 。 

另 一 种 在 服务 需 上 进行 内 容 生 成 的 途径 是 在 HTML 文档 中 散 入 SSICServer 
Side Include) 指 令 。 包 含 这 种 指令 的 文件 的 默认 扩展 名 是 . stm、. shtm 或 . shtml, 这 
样 当 客 户 问 访问 这 类 文件 时 ,Web 服务 镶 端 会 对 这 些 文件 进行 读 取 和 解析 ,把 文件 中 

J 含 的 SSI 指令 解释 出 来 ,最 终生 成 HTML 文档 推送 给 客户 端 。 与 内 容 生 成 有 关 的 
常见 指令 是 include, 使 用 方法 是 在 HTML 文档 中 的 合适 位 置 插入 命令 : 


<!-- ## include file= "文件 名 "--> 


其 中 ,文件 名 是 一 个 用 相对 路 径 表 示 的 文件 ,例如 <1-- 并 include file 一 "head_news 
.htm"--> 将 head_news. htm 文件 的 内 容 插 入 到 当前 页 面 。 

这 种 通过 指令 般 人 来 生成 动态 页 面 的 典型 场合 是 当 不 同 Web 页 面包 含 菏 些 相 
同 的 内 容 时 ,将 这 些 内 容 定 义 为 一 个 独立 的 文件 ,然后 般 入 到 其 他 Web 页 面 中 。 例 
如 ,在 新 瀛 新 闻 页 面 中 都 有 一 个 如 图 5-1 所 示 的 导航 条 ,就 可 以 将 这 些 内 容 定 义 为 一 
个 独立 的 HTML 文档。 这样 可 以 省 去 在 不 同 新 闻 页 面 中 编写 导航 条 的 采 烦 。 


新 浪 首 匈 新闻 体育 财经 苞 乐 科技 博客 图 片 专栏 更 多 Y 


图 5-1 导航 条 


2. 客户 端 生成 


根据 这 种 内 容 生 成 方式 ,内容 是 在 客户 顺 上 生成 ,而 客户 闯 主 要 是 浏览 从。 受 限 


(106) 
Cy i; 
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于 浏览 硕 的 能 力 , 客 户 端 生 成 的 内 容 一 般 是 轻 量 级 的 .局 部 的 ,例如 给 用 户 提示 千 千 
信息 .显示 定时 时 间 等 。 

在 这 种 生成 方式 下 ,Web 页 面 中 需要 散 入 一 定 的 脚本 或 插件 。 常 用 的 脚本 语言 
包括 JavaScript、VBScript、ActionScript 等 ,插件 包括 Active X 控件 、Flash 插件 等 。 这 些 
脚本 或 插件 具备 对 浏览 硕 事 件 做 出 啊 应 . 谈 写 HTML 中 的 元 系 、 创 建 或 修改 Cookie 等 
功能 ,这 些 功能 的 实现 要 求 客 户 闫 具有 执行 脚本 .下 载 并 执行 插件 的 能 力 。 通 过 在 训 览 
右 内 执行 这 些 脚 本 或 插件 功能 ,实现 Web 页 面 内 容 的 生成 ,并 进行 动态 更 新 。 

由 于 需要 在 浏览 带 的 进程 空间 中 执行 代码 ,所 以 这 种 方式 可 能 会 影响 客户 端 安 
全 。 许 多 恶意 的 脚本 代码 就 通过 这 种 途径 对 本 地 计算 机 产生 安全 风险 ,所 以 浏览 器 
一 般 痢 会 提供 让 用 户 进 行 日 行 配置 的 界面 ,如 图 5-2 所 示 。 


- Internet 区 域 


司 | Activex 控件 和 插件 
恒 | hctiweX 控件 目 动 提示 
回 荣 用 


局 用 
恒 | 对 标记 为 可 安全 执行 脚本 的 AectiveX 控件 执行 脚本 # 
晤 禁用 


启用 
© 提示 

出 对 未 标记 为 可 安全 执行 脚本 的 hetiveX 控件 初始 化 并 扶 
@ 禁用 (推荐 ) 


@@ 语 用 (不 安全 ) 


岛 提示 
外 | 二 进 制 文件 和 脚本 行为 
名 管理 员 认 可 


Le 


# 在 重新 向 动 你 的 计划 机 后 生效 
重 置 自 定 ※ 设 置 
重 直 为 EE): 


图 5-2 浏览 船 执行 脚本 的 配置 


5.1.2 动态 页 面 交 互 的 实现 


动态 页 面 的 交互 是 指 浏览 般 和 Web 服务 仑 之 间 的 命令 参数 传递 方式 ,按照 命令 
参数 的 不 同 提供 方式 ,主要 有 用 户 提 供 和 Cookie 提供 两 种 方式 。 不 管 是 哪 种 方式 ， 
通常 使 用 JavaScript 等 脚本 语言 来 生成 市 参数 的 URL ,最 终 发 送 给 服务 船 。URL 的 
发 送 有 通过 Ajax 引 苞 和 非 Ajax 引擎 两 种 。 下 面 分 别 介绍 这 里 提 到 的 一 些 天 键 
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1. 通过 URL 传递 请 求 参数 


URL 即 统一 资源 定位 ,用 来 : 


示 资 源 在 互联 网 上 的 地 址 。URL 具有 以 下 的 形式 ，; 
协议 :// 域 名 部 分 :端口 号 /目录 /文件 名 .文件 后 缀 ?参数 1= 值 # 标 志 & 参 数 2= 值 # 标 志 


其 中 ,对 于 Web 页 面 请 求 而 言 ,协议 可 以 是 http 或 https。 如 果 使 用 默认 的 80 作为 
端口 号 , 则 可 以 省 略 .? 表示 第 一 个 参数 的 开始 ,起 到 分 隔 的 作用 。URL 可 以 携带 多 
个 参数 及 其 值 ,在 上 面 给 出 的 形式 中 包含 了 两 个 参数 。 基 本 形式 是 "参数 二 值 " ,不 同 
参数 之 间 用 & 连接 起 来 。# 标 志 表 示 书 签 , 用 于 访问 一 个 Web 页 面 中 的 特定 部 分 。 
市 参数 的 URL 的 两 个 例子 如 下 : 


https:/ /search. jd. com/Search?keyword = 互联 网 大 数据 &enc= utt-8 
https://www. baidu. com/s?ie = utf ~ 8&f = 8&rsv bp= 0&rsv idx=1&tn= baidu&wd = bigdata 


在 用 户 参 与 的 情况 下 ,生成 动态 页 面 所 需要 的 参数 一 般 是 通过 输入 框 、 下 拉 列 表 
框 .按钮 等 基本 的 HTML 控件 来 完成 。 生 成 URL 则 是 浏览 器 在 控件 的 相关 事件 中 
调用 JavaScript 等 语言 编写 的 脚本 来 完成 的 。 

图 5-3 所 示 为 京东 的 搜索 页 面部 分 , 它 包 含 了 一 个 输入 框 和 一 个 按钮 ,相应 的 
HTML 源 代 人 码 如 下 : 


< div class =“form > 

< input type = "text" onkeydown = "javascript: if(event. keyCode == 13) search( 'key');" 
autocomplete = "off" id= "key" accesskey = "s" class = "text" /> 

< button onclick = "search( 'key');return false;" class = "button cw— icon">< ></i> 搜 
索 </button > 
</div> 


图 5-3 输入 搜索 


当 按 下 回 车 键 或 单 击 按钮 时 ,浏览 硕 执 行 相 应 的 脚本 ,最 终生 成 包含 参数 的 
URL ,具有 如 下 形式 : 


https:/ /search. jd. com/Search?keyword = 互联 网 大 数据 &enc=utt-8 
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表示 搜索 的 关键 词 是 “互联 网 大 数据 ”, 编 码 方式 是 utf-8。 


2. 通过 Cookie 获取 命令 参数 


在 Cookie 中 记录 了 一 些 客户 端 和 服务 需 之 间 交 互 的 参数 ,例如 购物 网 站 上 用 户 
设 定 的 城市 、 登 录用 户 名 和 口令 等 ,这 样 对 于 需要 用 户 登 录 的 页 面 ,就 可 以 自动 读 取 
Cookie 内 容 作 为 请 求 的 参数 。 上 有 具体 过 程 是 这 样 的 ,在 浏览 右 的 地 址 栏 中 输入 URL， 
浏览 器 根据 域名 及 作用 范围 来 寻找 相应 的 Cookie 文件 ,如 果 文 件 存在 , 则 将 该 
Cookie 中 的 内 容 读 出 ,并 填充 在 HTTP 请 求 头 上 发 送 给 服务 器 。 

图 5-4 所 示 为 在 Chrome 浏览 融 的 开发 者 视图 下 看 到 的 访问 淘宝 网 时 的 HTTP 
请 求 头 ,可 以 看 出 Cookie 是 以 “Cookie: namel= valuel; name2 一 value2;...” 的 形式 
传递 参数 给 服务 需 的 。 


* Headers | Preview Response Cookies Timing 


T Request Headers 
:authority: world.taocbao .co 
:method: GET 
:path: / 
:sCheme: https 
accept: text/htm],application/xhtml+xml ,application/xml;q=6.9, image/webp,image/apneg, 
曲 。 阁 
accept-encoding: gzip, deflate, br 


accept-language: zh-CN,zh;q=@.9 


cache-control: max-age=@ 
cookie: thw=cn; cna=diSeEv6vCyoCAXaG+LGoaeg7?; UM distinctid=16lb@eddabeadd-Bdef@4d6d 
d5fBe-100269-161beeeda718f 昌 enmc=cHDATetdkHY]JBpPagsdwhM5aEIDglO0HSe]JYkgqw]OGXLIO72rps 
S%2BJjHHMSTRh4LD35BMNSmREGdBtLAdNw%3D%3D miid=7246815031322786187; t=27e8b138c9135c9 
TaacC392, Vv=8. coolcic2~320c53576f895b2264366a387cadc6f623 tb token =eebeaae399edf;: 

- [ll Ee | 是 == na ey i | LE ui i 


图 5-4 访问 淘宝 网 时 的 HTTP 请 求 头 


3. Ajax 


Ajax 是 一 种 基于 JavaScript 并 整合 XHTML XML 、DOM 等 技术 实现 的 客户 
绒 / 服 务 右 并 动态 页面 编程 框架 。1999 年 微软 公司 发 布 IE5, 引 入 一 个 新 功能 , 即 允 许 
JavaScript 脚本 加 服务器 发 起 HTTP 请 求 , 这 个 技术 在 后 来 被 称 为 Ajax, 其 全 称 是 
Asynchronous JavaScript and 和 XML。 

支持 Ajax 的 浏览 器 配置 有 Ajax 引擎 ,Ajax 通过 XMLHttpRequest 和 Web 服 
务 器 进行 异步 通信 ,利用 iframe 技术 实现 按 需 获取 数据 。Ajax 通常 用 于 在 后 台 与 服 
据 交 换 ,在 不 重新 加 载 整 个 网 页 的 情况 下 对 网 页 的 局 部 进行 更 新 ,最 


务 大 进行 少量 数 ] 
大 程度 地 减少 元 余 请 求 , 避 人 免 给 服务 絮 千 成 太 大 的 负担 ,也 更 有 助 于 提高 用 户 体 验 。 
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Ajax 这 种 类 型 的 动态 页 面 机 制 通常 是 在 一 定 条 件 下 触发 的 ,归纳 起 来 主要 有 以 
下 两 种 途径 。 


Web 页 面 按 照 一 定 的 时 间 间 阳 目 动 执 行 脚本 ,从 而 发 起 Ajax 请求。 典型 的 页 面 
例子 是 包含 股票 实时 行情 数据 的 Web 页 面 。 图 5-5 所 示 为 新 瀛 股票 行情 页 面 ,页 面 
上 的 当前 价格 等 信息 按照 一 定 的 时 间 目 动 更 新 。 


新 浪 服 市 表达 点 这 里 配置 


| 本 | 人 、 | | An | 


有 宕 州 芒 台 (oo0s19 si0 300 融 iImscr 买 | | 口 股价 提 醒 十 加 入 自选 股 


全 : 4.08 万 手 


952 00 会 时 

, +1. 29% : 38. 得 亿 元 
张 信 : 跌停 : 845. 91 : 925.00 总 市 值 : 11959. 00 亿 
Re Sy : 939, 90 。 流通 市 值 : 11959. 00 亿 


15:00:02 
酿酒 行业 +1. 11% 领 张 服 : 通 获 服 份 6.79 +6. 43% 


信息 地 雷 : 2019-04-05 贵州 区 台 :; 2019 年 第 一 地 度 主 要 经 营 数据 公告 


(0) 慢 生 行情 已 开启 高 手 教 你 买 价值 脸 ! 把 握 选 服 新 思路 挖掘 市 场 新 机 会 


图 5-5 Web 页面 中 的 实时 内 容 显示 


2) 鼠标 或 键盘 事件 驱动 

Web 页 面 中 要 显示 的 内 容 比较 多 ,但 是 为 了 用 户 体验 ,一 般 事 先 只 显示 部 分 内 
容 , 随 看 用 户 阅 读 的 进行 ,不断 深 动 鼠 标 或 按 PgDn 键 目 动 获 取 更 多 内 容 并 显示 。 在 
文 个 过 程 中 获取 更 多 内 容 的 方式 , 通 第 也 是 Ajax 一 种 请 求 。 在 各 种 新 闻 网 站 ,例如 
新 浪 新 闻 中 ,一 个 典型 的 页 面 可 和 参见 “http://news. sina. com. cn/0/2018-11-06/doc- 
ihmutuea7351575. shtml”, 当 用 户 在 浏览 右上 疝 下 翻 页 时 会 不 断 出 现 更 多 的 新 闻 列 
表 。 另 一 个 典型 的 例子 是 各 种 电 商 网 站 上 的 商品 评论 , 通 第 事先 显示 评论 的 少数 记 
录 , 之 后 随 着 用 户 不 断 按 PgDn 键 或 向 下 滚动 鼠标 ,会 有 更 多 的 评论 记录 显示 出 来 。 


mv 动态 页 面 采集 拉 术 


根据 5.1 末 中 关于 动态 网 页 内 容 生 成 与 交互 方式 的 叙述 ,动态 网 页 的 采集 技术 
也 与 交互 方式 二 接 相 关 。 采 集 技术 可 以 归纳 为 以 下 4 种 类 型 。 


(9 
CO 
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(1) 构造 带 参数 的 URL ,利用 参数 传递 动态 请 求 ; 

(2) 构造 Cookie 携带 参数 ,利用 HTTP 头 部 传递 动态 请 求 的 参数 ; 

(3) 离线 分 析 Ajax 的 动态 请 求 ,使 用 静态 页 面 采 集 技 术 或 者 通过 Cookie、 POST 
等 形式 发 送 请 求 参数 ; 

(4) 模拟 浏览 器 技术 。 

在 这 4 种 方式 中 最 简单 的 是 第 一 种 ,只 要 拼接 出 正确 的 URL 即 可 。 当 页 面 本 身 
使 用 Cookie 传递 参数 时 , 怜 虫 就 可 以 通过 Cookie 发 送 请 求 参 数 。Ajax 动态 请 求 技 
术 是 当前 使 用 最 广泛 的 ,其 基本 步骤 包括 分 析 页 面 、 获 取 URL、 获 取 动 态 请 求 参 数 以 
及 传递 参数 。 模 拟 浏 览 器 技术 实际 上 是 调用 浏览 器 内 核 来 模拟 真实 用 户 的 点 击 和 按 
键 等 操作 ,因此 在 执行 效率 上 要 比 其 他 方式 低 得 多 ,但 是 能 够 执行 一 些 比 较 复 杂 的 脚 
本 ,模拟 复杂 的 交互 操作 。 

这 4 种 技术 手段 适用 于 不 同 的 动态 页 面 交 互 方式 ,在 进行 息 虫 程序 设计 时 应 当 
根据 页 面 的 具体 情况 选择 。 


5.3 使 用 市 参数 的 URL 


带 人 参数 的 URL 有 具有 以 下 形式 ， 


协议 :// 域 名 部 分 :端口 号 /目录 /文件 名 .文件 后 缀 ?参数 1= 值 # 标 志 & 参 数 2= 值 # 标 志 


其 中 ,参数 1 .参数 2 等 多 个 参数 通过 & 连接 ,参数 名 称 可 以 通过 网 页 的 HTML 源 代 
码 获 得 ,也 可 以 直接 观察 页 面 请 求 时 的 URL 获得 。 这 种 方法 比较 简单 .直接 ,但 是 需 
要 注意 参数 值 的 编 但 方式 。 

图 5-6 所 示 为 系 东 的 搜索 页 面部 分 , 它 包 含 了 一 个 输入 框 和 一 个 按钮 ,上 面 是 生 
成 的 URL。 


https://search.jd.com/Search?keyword= 互 联网 大 数据 处 理 技术 与 应 用 &&enc=Uutf-8&qrs...。 全 


| 一 a [= mm 
互联 网 大 数据 处 理 技术 与 应 用 


图 5-6 搜索 与 对 应 的 URL 


“https://search, jd. com/Search? keyword 三 互联 网 大 数据 处 理 技术 与 应 用 
&.enc 二 utf-8” 表 示 搜 索 的 关键 词 是 “互联 网 大 数据 处 理 技术 与 应 用 ”, 编 码 方式 是 utf-8。 
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因此 , 疏 虫 在 采集 类 似 动态 页 面 时 就 可 以 直接 填写 关键 词 , 构 成 完整 的 带 参 数 的 
URL ,然后 发 送 给 Web 服务 需 。 

参数 在 URL 中 可 能 是 经 过 编码 的 ,例如 同样 的 搜索 命令 在 当当 网 中 显示 
查询 的 关键 词 是 经 过 编码 后 的 ,如 图 5-7 所 示 。 


互联 网 大 数据 处 理 技术 与 应 用 


图 5-7 经 过 编码 的 带 参 数 URL 


在 2.2 忆 中 对 网 页 字符 编码 进行 了 归纳 ,主要 有 utf-8、gbk、gb2312、unicode, 这 
些 编码 方式 同样 适用 于 URL 的 参数 。 字 符 串 编码 的 转换 方式 见 2.2 节 所 述 。 通 过 
以 下 简单 的 编码 测试 ,可 以 发 现 图 5-7 所 示 的 例子 对 URL 的 参数 采用 了 gbk 编码 。 


>>> n= ' 互 联网 大 数据 处 理 技术 与 应 用 ' # unicode 
>>> n. encode( 'gbk') 
b'\xbb\xa5\xcl\xaa\xcd\xf8\xb4\xf3\xca\xfd\xbe\xdd\xb4\xa6\xc0\xed\xbc\xbc\xca\xf5\xd3 


\xeb\xd3\xa6\xd3\xc3' 
> 


综合 上 述 内 容 来 看 ,这 种 动态 贝 面 米 集 技术 比较 价 单 ,关键 在 于 构建 合适 的 
URL。 以 下 是 一 个 例子 ,将 URL 的 参数 存放 在 字典 中 , 则 可 以 通过 字典 和 字符 串 的 
相关 运算 和 付 来 拼接 市 参数 的 URL。 


url = 'https://search. jd. com/Search' 
# 以 字典 存储 查询 的 关键 词 及 属性 
qrydata = { 
keyword' : ' 互 联网 大 数据 '， 
enc : utft—8", 
} 
Te 
for k,v in qrydata. items( ) : 
lt.append(k+"'='+ str(v)) 
query_string = '&'.join(1t) 


Url] = url + '?'+query string 
print(url) 


(1 12) 
CO 
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这 上段 程序 最 终生 成 的 URL 是 “https://search. jd. com/Search? keyword 王 互联 
网 大 数据 必 enc 王 utf-8”。 


s.4 利用 Cookie 和 Session 


在 第 3 章 对 Cookie 的 一 些 基本 知识 及 其 在 HTTP pine pe 

如 ,在 这 里 要 掌握 如 何在 候 虫 中 实现 基于 Cookie 的 动态 交互 过 程 。 该 过 程 分 为 两 个 
环节 ,一 是 Cookie 的 获得 (或 构造 ) ,二 是 将 Cookie 传递 到 服务 器 。 

由 于 Cookie 中 的 内 容 通 常 是 由 服务 器 生成 的 ,客户 端 只 是 简单 地 将 内 容 存储 到 
本 地 。 因 此 ,在 一 般 情况 下 需要 通过 合适 的 手段 获得 Cookie 内 容 。 最 简单 .准确 的 
方式 是 通过 浏览 器 的 开发 者 工具 或 开发 者 模式 ,例如 在 Google 浏览 器 中 可 以 跟踪 到 
访问 thelion. com 时 的 HTTP 请 求 信 息 ,能 够 看 出 该 网 站 使 用 了 Cookie, 如 图 5-8 所 
示 。 只 要 将 Cookie 的 属性 值 复制 出 来 ,保存 成 文本 文件 即 可 ,例如 thelion. txt。 


[RR 各 | EIerments Console IOUTCES Network Performance Memeary Applicatian Security Audits 
Om Vew 3 Groupbyframe © Preserve log © Disable cache | Offline Online " 
Filter EE Hide data URLs All XHR 5 C55 Img Media Font Doc WS Manifest Other 


2000 ms A000 ms b000 ms 8000 ms 10000 ms 12000 ms _ 14000 ms 16000 ms 18000 ms 20000 ms 22000 ms 
二 = 


Name n Headers Prewew Response Coolhes Timinag 
| thelion.com 2 | "General 


Ei mystyle.css ] Request URL: http://thelion.com/ 
mysmnpts Request Method: GET 

= foumlogol.gif Status Code: © 266 OK 

+ down.git Remote Address: 54.213.154.154:88 


| up,gif | 
ED eps cher himl Referrer Policey: no-referrer-When-donunerade 


刁 src_slogan.gif " Response Headers (6) 

go.gif "Request Headers view source 

本 bjt54D3s sm3.gif 

a green.gif 

a drolXFcO sm3.grf 

可 cTWYICaQ sm3.9if 
noe avatar_sm3.gif 

可 Yx6o1RK2 sm3.gif 
LNike,jphpyhref=http9a3A3o2F3o2Fww， 
lkephp?href=http363AX%2F R22Pww, » 


Accept: text/html,application/xhtml+xml ,application/xml;q=8.9, image/webp,image/apne, */*;0q=0.4 
Accept-Encoding: gzip, deflate 

Accept-Language: zh-CN,zh;gq=8.9 

Cache-Control: max-age=@ 

Connectiom: keep-alive 

Cookie: _ utmz=179084769.15458186818.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none): aio m: 
titeICsteICyfEICIihs _ utma=179004769.341493541.15456188618.15529828516.1552911683 .4 

Host: thelion. com 


图 5-8 通过 浏览 器 获得 Cookie 内 容 


从 图 中 可 以 看 出 Cookie 是 以 “Cookie: namel= valuel; name2 二 value2;...” 的 形 
式 存在 的 ,这 里 指出 了 所 传递 的 参数 及 参数 值 。 因 此 在 Python 中 可 以 将 Cookie 的 
内 容 以 字典 的 形式 存储 。 由 于 Cookie 的 传递 是 通过 HTTP 协议 的 请 求 头 ,所 以 需 
在 requests. get() 中 指定 cookies 的 属性 值 。 以 下 是 完整 的 例子 。 


夺 夺 一 -一 动 
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Prog - 4- cookie - demo.py 
井 Python 3.6 环境 
import requests 


f = open(r'taobao - hk. txt') # 打开 所 保存 的 cookies 内 容 文 件 
cookies = {} # 初始 化 cookies 字典 变量 
for line in f.read(). split(';'): 
# 按照 字 符 进行 划分 读 取 . 硅 将 其 设置 为 1, 就 会 把 字符 串 拆 分 成 两 份 
name, Value = line. strip(). split('= ",1) 
cookies[name] = value 井 为 字典 cookies 添加 内 容 


r= requests. get("https://www. taobao. com/", cookies = cookies) 井 cookies 中 的 内 容 作 为 参数 


如 3.5.2 有 所 述 ,Cookie 存在 被 截获 而 导致 个 人 敏感 信息 泄露 的 风险 ,此 外 连 
续 多 次 访问 同一 台 Web 服务 各 时 ,反复 申请 与 释放 资源 容易 造成 时 间 消 耗 。 为 了 
避免 这 些 问 题 ,在 疏 虫 请 求 时 可 以 使 用 Session 技术 。 在 Python 中 使 用 Session 的 
方法 是 通过 requests 的 Session 类 ,以 下 例子 展示 了 使 用 Session 进行 页 面 采 集 的 
J 

import requests 

def bySession( URL): 

sess = requests. Session( ) # 获得 Session 对 象 


response = sess. get( URL) # 使 用 get、post 等 方法 提交 请 求 
井 后 续 可 以 使 用 response 对 得 的 各 种 方法 获得 啊 应 信息 


但 是 也 要 注意 ,Session 是 由 服务 希 创 建 ,Session 的 长 时 间 存 在 容易 增加 服务 人 需 
的 存储 成 本 。 因 此 ,在 设计 友好 的 爬虫 时 ,需要 在 信息 泄露 风险 .时 间 消 耗 和 服务 天 
的 存储 成 本 之 间 综 合 权 衡 ，。 


5.5 使 用 Ajax: 以 评论 型 页 面 为 例 


Web 页 面 可 以 使 用 JavaScript 等 脚本 语言 生成 市 参数 的 URL ,并 最 终 可 能 通过 
Ajax 引擎 发 送 到 服务 器 上 执行 ,因此 可 以 获得 最 终 发 给 服务 器 的 URL 作为 爬虫 的 
疏 行 任务 。 在 这 种 动态 页 面 访问 方式 中 ,最 重要 的 关键 技术 问题 是 要 寻找 到 Ajax 
动态 加 载 的 请 求 URL 地 址 。 此 外 ,如 果 在 向 Web 服务 喜 发 送 请 求 , 需 要 携 市 参 
数 , 则 可 以 采取 5. 3 市 介绍 的 做 法 ,也 有 的 网 页 可 能 要 求 通过 POST 方式 动态 提交 
参数 。 


人 
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同 竺 ,上述 问 题 都 可 以 采用 最 稼 用 的 方法 , 即 通过 浏览 硕 的 开发 者 工具 或 开发 痢 
模式 来 检测 请 求 信息 。 


5.5.1 多 取 URL 地 址 


很 多 实时 性 比较 强 的 网 站 都 采用 Ajax 进行 内 容 的 动态 加 载 ,例如 提供 实时 天 
气 、 股 票 行 情 等 的 网 站 。 这 类 信息 的 目 动 获取 就 需要 寻找 相应 的 URL, 以 新 沪 财 经 
的 股票 实时 信息 为 例 , 其 网 址 是 “https://finance. sina. com. cn/ stock/”。 在 浏览 器 
中 输入 该 网 址 ,进入 浏览 需 的 开发 者 模式 。Google Chrome 浏览 带 提 供 的 分 析 功 能 
比较 合适 ,在 开发 者 模式 下 选择 Network、JS, 如 图 5-9 所 示 , 即 可 看 到 页 面 中 加 载 
的 JS。 


[由 | Elements Console Sources Network Performance Memory Application Secunty A 

$9 mF QA Vew: 3 TT 9 Groupbyframe | Preservelog © Disable cache 日 Offfine Online 时 

Hilter 上 Hide data URLs All | XHR C55 Img Media Font Doc WS Manifest Qther 
ek i Ee Ed ee Ee 


Nar me | Dp Initrator I Waterfall 


ms li i i ns Ms i Wie Me ss tl a Be ha 是 一 上 -| 三: 
一 一 上- 广 - 一 


司 mm=1553566645488&ulist- 5_ shO00001s SS | ， wmt gushou,s:... 
J rm=15533566650489&list=s_sh000001s s... 2 script wmt gushou,s... 
EE ?format=json&lrst=s! apill scnpt FN,Js:124 
ran=0.74703405333849198&list=s_sh600... 2 script SS 
?m=133353666338235&list=sh600519 sh0,.,. script sfijs:l 
?m=1553566653827&list=sh600519 1sh.., 20 script sfi,s:l 
= ran=0.131887006509040538&lst=s sh60... script sti.js:1 
-_| rn=1553566655489&lhst=s_sh00000]1s s... script wmt gushou.s:... 
rm=1553566660490&list=s shO000001s s... 20 script Wmt gushou,s... 
?m=1553566663827&list=sh600519 shO... script sff,js:l 
?m=1553566663828&list=sh600519 1sh... 2 script sf 人 1 
_] rn=1553566665491&list=s_sh000001s s.,，200 script wmt gushou,js:..， 
ran=0.3338340994231437&format=jJson... script FNJs124 
-| rnm=1535335666704968&list=s sh000001 s s... script wmt gushou.s:... 
= ?format=Json&list=sl_ apill script FN,s:124 
-| ran=0.6529679140011488&list=s_sh600,.， 200 script sft,js:l 


图 5-9 在 开发 者 模式 下 查看 JS 


如 果 JS 是 定时 重复 执行 的 ,可 以 结合 页 面 数据 的 更 新 情况 寻找 对 应 的 JS, 单 击 
之 后 , 即 可 看 到 关于 该 JS 发 送 URL 的 请 求 头 和 啊 应 信息 ,如 图 5-10 所 示 。 图 中 
Request URL 对 应 的 值 即 为 请 求 数据 的 URL。 然 后 直接 使 用 程序 模拟 请 求 ,就 可 以 
从 接口 获取 到 返回 的 数据 ,一般 情况 下 Ajax 返回 的 数据 是 以 JSON 形式 封装 的 ,这 
样 信 息 提 取 过 程 就 会 比较 容易 。 

第 二 种 获得 URL 地 址 的 方法 是 通过 请 求 头 的 Referer 属性 ,3.4.3 而 中 提 到 ,在 

请 求 头 中 该 属性 表示 所 请 求 的 URL 是 哪个 页 面 中 的 链接 。 当 网 站 信息 结构 或 交互 


采集 技术 与 Python 实现 115) 


Name * Headers Preview Response Timing 
-| ?format=jsonAlist=s1_apill 2 General 
3 ran=0.582885536013827068ist=s_sh600519,.s_ sh000 i 
rm=1553566413814&list=s_sh00000]s sz399001,s s 
?m=1553566413820&list=sh600519 sh000001.sz30C 
J ?m=1553566413821&list=sh600519 1sh000001 1sz. 
= ran=0.8473901631337312&list=s sh603739s sz002' 
m=1553566418815&list=s_sh00000],s sz399001s s 
rm=1553566423818&list=s sh00000]s sz399001ss rResponse Headers (3) 
_ ?m=1333366423823&list=sh600319,sh000001,sz30( Request Headers 
= ?m=1333566423825&hst=sh600519 1,sh00000]1 1,sz. 
ran=0.3766088698469463&format=json&list=new & 
rmn=15953566428833A&list=s_sh000001s sz399001s s 
OD rformat=jsonBdist=si_api11 
= ran=0. Ee 5 _ TS 二 


Request URL: https 7 hq.sinajs.cny ?format=json&list=si apil1: 
Request Method GET 

Status Code: 局 296B OK 

Remote Address: 61.172.287.163:443 

Referrer Policy: unsafe-url 


Lh Provisional headers are shown 

Referer https://finance.sina.com.cn/stock,/ 

User-Agent: Mozilla/5.8 (Linux; Android 6.9; Nexus 5 Build/M 
NY AppleWebKit/537.36 (KHTML, like Geckoy Chrome/72.08.3626.- 
Mobile Safari/537.36 


图 5-10 查看 JS 发 送 的 请 求 信息 


过 程 比较 复杂 时 ,通过 第 一 种 方法 不 一 定 能 获得 Request URL, 这 时 可 以 分 析 请 求 头 
的 Referer 属性 。 下 面 以 携程 酒店 评论 信息 页 面 的 请 求 为 例 来 说 明 。 

图 5-11 所 示 为 酒店 评论 的 人 口 页 面 , 页 面 上 提示 有 600 条 评论 , 当 将 鼠标 指针 移 
动 到 "酒店 点 评 ” 处 时 可 以 看 出 ,其 超 链 接 指 回 了 ”javascript:void(0)”。 在 其 他 很 多 
网 站 的 动态 页 面 中 都 有 类 似 的 链接 ,显然 息 虫 通过 这 个 链接 无 法 获得 真正 评论 
的 URL。 


全 多 ”房型 已 订 完 ， 建 议 您 更 改 入 住 时 间或 选择 其 他 酒店 . 


房型 列表 酒店 详情 酒店 点 评 (600) 


六 住 2019-04-24 误 谎 ”2019-04-25 | 房间 数 /1 闻 ”= 住 客 数 | 1 成 人 -| 


图 5-11 酒店 评论 的 入 口 页 面 


如 果 要 获得 这 些 评论 ,首先 要 找到 请 求 的 URL。 在 进入 开发 者 模式 之 后 ,通过 
鼠标 点 击 操作 可 以 在 评论 信息 页 面 检查 对 应 的 请 求 过 程 。 如 图 5-12 所 示 , 通 过 
Network 下 的 XHR 选项 可 以 在 请 求 头 的 Referer 属性 中 找到 评论 的 URL, 即 图 中 选 
中 的 部 分 。 这 里 的 XHR 类 型 是 指 通 过 XMLHttpRequest 方法 发 送 的 请 求 ,可 以 在 
这 里 检查 页 面 中 发 送 的 请 求 。 

但 是 当 遇 到 加 密 的 JS 时 ,要 分 析 并 找到 请 求 地 址 就 会 非常 困难 ,需要 耐心 寻找 
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[x 上 曲 ] Flements Console Sources Network Performance Memory Application Securty Audits 

OmFT A Vew 所 Groupbyframe ® Preserve log @@ Disable cache | 昌 Offline Online v 

Filter 目 Hide data URLs All EY Js Css Img Media Font Doc WS Manifest Other 
上 EF ms 10000 ms 15000 ms 20000 ms 25000 ms 30000 ms 33000 ms A0000 ms 435000 ms S0000 ms 53000 ms 60000 ms 65000 ms 0000 ms 


Name “ Headers Preview Response Timing 


Lh "Oenmeral 
-lasthme.v2.0ys Request URL: nttp://m.ctrip.com/restapi/soa2/10994/json/GetFloatUI 
品 Ta rr e_lelH3Into,son i 
as 3 了 Status Code: ® 268 OK 
d | Remote Address: 191.226.248 .39:86 
Referrer Policy: no-referrer-when-downgrade 


* Response Headers (20) 
TYRequest Headers 
A Provisional headers are shown 
Content-type: text/plain; charset=UTF-8 
Origin: http://m.ctrip. com 
Referer: http://m.ctrip.com/webapp/hotel/hoteldetail/dianping/ 441351.html3& 
fr=detail&atime=20198424&days=]1 
User-Agent: Mozilla/5.8 (Linux; Android 6.8; Nexus 5 Build/MRAS8N) AppleWeb 
Kit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Mobile Safari/537.36 


“Request Payload view source 


{Platformlype: nd pageParameter: {yp.},.} 


PlatformType: "h 
bd hep, J 66672, SID: 1693366, OQUID: ™", SourceID: @} 


bpageParameter: {,..) 


图 5-12 通过 Referer 属性 寻找 所 需要 的 URL 


页 面 特 征 , 以 及 在 不 同 页面 交 互 的 过 程 中 寻找 动态 请 求 之 间 的 关系 ,这 样 就 有 可 能 获 
得 最 终 发 送 给 Web 服务 可 的 请 求 信息 。 


5.5.2 获取 动态 请 求 参数 


一 般 情况 下 ,Ajax 的 动态 请 用 带 参 数 的 URL, 这 时 可 以 直接 使 用 前 面 提 到 
的 方法 来 构造 URL。 页 面 还 可 以 通过 提交 (POST) 数 据 的 方式 向 服务 需 发 送 请 求 的 
动态 参数 ,在 携程 .亚马逊 等 许多 存在 用 户 评 论 的 网 站 上 广泛 使 用 这 种 技术 。 在 这 种 
方式 下 ,最终 表现 出 来 的 URL 并 不 是 以 “https://search. jd. com/ Search? keyword 一 
互联 网 大 数据 &enc 二 utf-8” 这 种 通过 关键 字 - 值 对 表示 的 URL ,而 是 通过 POST 的 
方式 提交 数据 。 因 此 ,只 要 能 获得 POST 的 数据 及 形式 就 可 以 向 服务 器 发 送 请 求 了 。 

图 5-13 是 携程 酒店 评论 页 面 在 浏览 器 开发 者 模式 下 的 结果 ,可 以 看 出 在 请 求 时 
采用 了 Payload 的 参数 传递 方式 ,这 是 Ajax 的 一 种 典型 方式 ,在 许多 类 似 的 动态 页 
面 中 都 存在 。 从 图 中 可 以 看 出 请 求 的 Content-Type 是 application/json, 具 体 参 数 在 
Payload 中 。 

因此 ,只 要 将 这 些 参数 复制 出 来 写 到 程序 中 。 例 子 如 下 : 
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smenits Console SoOUrces Network Performance Memory Application Security Audits 

Om A | View 所 TE Groupbyframe © Preserve log © Disable cache | Offline Online 到 

Filter Hide data URLs Al MU Js Css Img Media Font Doc WS Manifest Other 

| 500000 ms 1000000 ms 1500000 ms 2000000ms 2500000 ms 3000000 ms 3500000 ms 4000000 ms 4500000 ms 500( 
Name xn Headers Preview Response Timinag 


h REUUEsT Wenoo: FUST 
一 Status Code: ®@ 2808 OK 
| lasttime.v2,0,s 


| Dynamicpackage TelH5Infojson Remote Address: 181.226.248.38:8e 

LI GetFloatUI Referrer Policy: no-referrer-when-downgrade 
wntecookie » Response Headers (24) 

Ud 


I ™ Request Headers 
gethotelcomment: fxpcqlnmiredt.., 


Dh Provisional headers are shown 
content-type: application/json 


| gethotelcommenit? fxpcqlniredt... 
gethotelcomment? fxpcqlniredt.., 


cookieOrigin: http://m.ctrip.com 

Origin: http://m.ctrip.com 

Referer: http://m.ctrip.com/webapp/hotel/hoteldetail/dianping/441351 .html ?sfFr=det 
ail&atime=20196428&days=1 

User-Agent: Mozilla/5.8 (Linux; Android 6.8; Nexus 5 Build/MRAS8N) AppleWebKit/5 
37.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Mobile Safari/537.36 


Query String Parameters Vview source view URL encoded 
fxpcqlniredt: 89831865441868748256658 


T Request Payload View parsed 
{"hotelId™":441351, "pageIndex":3,"taeld":0,"pagesize™":18,"eroupTypeBitMap™:2,"ned 
dstatisticInfo":0, "order":®,"basicRoomName":"", "travelType":-1,"head":{"cid":"@ 
8318564418687402668","ctok":"" "cver™":"1.0","lang":"01", "sid":"8888","syscode”™: "I 
9", "auth":"", "extension":[]}} 


图 5-13 ” POST 请 求 参数 Request Payload 


import requests 
import json 
# 以 下 payload 数据 来 目 浏 览 器 看 到 的 结果 
payload = {" hotelId":441351,"pageIndex" :2 "tagId" :0,"pageSize" :10, "groupTYPeBitMap :2， 
"needStatisticInfo" :0,， "order": 0，" basicRoomName":"", "travelType" : — 1," head": {" cid": 
"09031064410687402660"”, "ctok":""， "cver ":"1.0"”， "lang :"01","sid":"8888"," syscode": 
"09","auth":"","extension":[ |]}} 
payloadHeader = { 
'Content — Type': 'application/json', 
| 
# 封 装 成 为 JSON 形式 
data = json. dumps( payload) 
# 以 POST 方 法 发 送 URL 请 求 , 同 时 指定 所 携带 的 参数 给 函数 参数 data 
res = requests. post(url, data = json. dumps(payload), headers = payloadHeader) 
res. encoding = "utf—8' 


那么 这 段 程序 运行 后 , 即 可 通过 res. text() 获 取 到 评论 记录 信息 。 由 于 是 动态 请 
求 , 所 以 在 Payload 中 包含 了 丰富 的 信息 来 实现 页 面 的 动态 内 容 。 在 页 面 没 有 经 过 
混 消 等 处 理 的 情况 下 ,可 以 直接 通过 参数 名 称 大 体 判 断 其 含义 。 但 是 如 果 参 数 经 过 
了 混 消 处 理 , 则 需要 通过 一 定 的 观察 和 分 析 才 能 具体 确定 每 个 参数 的 含 
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5.6 模拟 浏 贤 兹 一 一 以 目 动 登录 邮箱 为 例 


视 频 讲解 
模拟 浏 览 大 有 3 种 实现 方式 ,一 种 是 以 模拟 特定 浏览 大 的 header 信息 方式 来 实 


现 对 浏览 华 的 模拟 ; 一 种 是 使 用 浏览 副 内 核 ( 例 如 WebKit); 还 有 一 种 是 直接 在 浏览 
需 上 开发 组 件 (Firefox/Chrome) 实 现 动 态 页 面 的 采集 。 其 中 ,第 一 种 方式 只 是 简单 
地 在 中 里 程序 调用 requests. get() 时 指定 headers 参数 ,以 下 例子 是 一 种 基本 用 法 。 


useragent = 'Mozilla/5.0 (Linux; Android 6. 0; Nexus 5 Build/MRA58N) AppleWebKit/537. 36 
(KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36' 
http headers = 1 
User — Agent :USseragent， 
'Accept': 'text/html' 
# 其 他 头 部 属性 
} 
page = requests. get(url, headers = http headers) #URL 要 请 求 的 网 址 


其 中 ,useragent 的 值 可 以 通过 在 浏览 器 的 开发 者 模式 下 查看 请 求 头 , 获 取 对 应 的 
User-Agent。 

在 页 面 的 JS 脚本 比较 复杂 、Ajax 交互 较 多 或 存在 不 同 页 面 之 间 大 量 数据 交换 的 
情况 下 ,使 用 浏览 器 组 件 模拟 浏览 器 进行 页 面 内 容 的 采集 比较 合适 。 这 里 以 
Selenium 为 例 介 绍 具 体 方法 。Selenium 是 一 套 完 整 的 Web 应 用 程序 测试 系统 ,包含 
了 测试 的 录制 (Selenium IDE) ,编写 及 运行 (Selenium Remote Control) 和 测试 的 并 
行 处 理 (Selenium Grid) 。 它 可 以 模拟 真实 浏览 右 , 文 持 多 种 浏览 喜 , 在 疏 虫 中 主要 用 
来 解决 JavaScript 泻 染 问题 。 

这 里 以 息 虫 自动 登录 邮箱 ,查看 有 没有 新 邮件 为 例 。 为 达到 目的 ,需要 经 过 安装 
配置 、 页 面 结 构 分 析 和 程序 实现 3 个 步骤 ,以 下 分 别 介绍 。 


1. 安装 配置 


在 Python 下 安装 Selenium ,执行 pip install selenium 即 可 ,如 图 5-14 所 示 。 安 
装 完 成 后 ,下 载 chromedriver (http://chromedriver. storage. googleapis. com/index. 
html) ,这 里 以 Chrome 为 例 。chromedriver 的 版 本 有 很 多 ,用 户 一 定 要 下 和 载 与 计算 机 
上 Chrome 浏览 占 版 本 相对 应 的 版 本 。 在 下 载 zip 包 之 后 将 其 解压 ,发 现 里 面 仪 有 一 
个 chromedriver. exe 文件 ,需要 放 到 Chrome 浏览 问安 疙 目录 ( 即 chrome. exe 所 在 


的 目录 ) 里 面 ,如 图 5-15 所 示 。 


Dip install selenium 
0llecting selenium 

Downloading https: A /Af1les. pythonhosted.orgpackages HHAdb6. 
i dT 2 。 轴 一 站 由 
HAEB 


“Jp | | | | | | ! 204kB 35 


图 5-14 安装 Selenium 


名 称 


68.0.3440.106 

TLO.35178.98 

| Dictionanies 

plugins 

SetupMetnics 
@ chrome 
:| chrome.VisualElementsManifest 
| | chromedriver 


@ new chrome 


图 5-15 ”将 chromedriver. exe 放 到 Chrome 浏览 器 安装 目录 里 


最 后 将 chromedriver. exe 所 在 的 目录 名 称 添 加 到 操作 系统 的 path 环境 变量 中 ， 
即 完成 安 活 配置 过 程 。 


2. 页 面 结构 分 析 


这 里 以 登录 邮箱 为 例 (https://mail. fudan. edu. cn/) , 疏 虫 目 动 输入 用 户 名 、 窗 
码 , 单 击 “ 登 录 ” 按 钮 ,相应 的 页 面部 分 如 图 5-16 所 示 。 通 过 页 面 的 源 代码 寻找 界面 
控件 对 应 的 控件 名 称 , 用 户 名 为 uid、 密码 为 password、“ 登 录 ” 按 钮 为 Button。 


2 用 户 名 


aa 


@ fudan.edu.cn 


图 5-16 邮箱 登录 页 面 的 部 分 
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登录 以 后 ,通过 测 贤 表 开 发 者 模式 下 的 Source 选项 找到 信息 的 位 置 , 即 新 邮件 


数 , 如 图 5-17 所 示 。 


<div id="topCcontainer™"» 
<div id="headContainer" class>.</div> 
T<div 1d="indexContainer™"> 
bcdiv id="navContainer™" style="height: 13805pX;">.</divy> 
ediv id="mainContainer™” style="height: 1305px:"> 
<div id="divfolder" style="display: none;y ">-< ydivy 
T<div id="divweLCome” style> 
<*iframe frameborder="e" scrolling="auto" id="welcome" name="Welcomel54762 
sid=BAVVPoDDsgqz2AjtxWBDONSXAbIGNITbSB” style="border: 8@px none: width: 16e8% 


T#document 
UOCCype Mom FUBLIC /WH3C/ADTD XHTHML 1.8 Transitional/ /EN nccp: 


transit1ional. 


<html xmlns="http: / /WoW. NW3.0re/1999/xhtml"» 


hb <head>.</head> 
<body class="glMain"> 
<div class="layout"> 
vdiv class="flow"> 
“<div class="scrollNav” id="scrollArea™” style="width: 168%: hei 
b adiv class="txttitle”" id="pageTitle">.</div> 
“<div style="clear:both;” id="body area”™» 
vlv Class ="Welcome panel™» 
T<Uiv class="panel head”"> 
bp <span </spany> 
Tspan Class="body"y 
<span class="pane, 
span Class="flienMail” id="TtNewMail™"yl</spany == Ho 


/spany 
a totabid="search™ we 


需要 的 信息 (新 邮件 数 ) 


3. 程序 实现 


在 上 述 步 又 分 析 完 成 之 后 就 可 以 写 出 Python 程序 了 ,以 下 是 主体 上 晤 数 。 


from bs4 import BeautifulSoup 

from selenium import webdriver 

from selenium. webdriver. chrome. options import Options 
import time 


import getpass 


def start browser(uid, passwd): 井 参 数 为 用 户 ID 和 口令 
井 雷 用 图 形 寞 面 
chrome options = Options() 
chrome options.add argument('—— headless') 
chrome_options.add argument('—— disable— gpu') 
browser = webdriver.Chrome(chrome options = chrome options) 
browser. get( 'https://mail. fudan. edu.cn/') 划 指定 URL 
time. sleep(2) # 延 述 ,等 得 返回 


# 模拟 填写 登录 信息 
browser. find element by_id("uid"). send keys(uid) 
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browser. find element by _ id( password ). send keys(passwd) 
# 模拟 单 击 " 登 录 ” 按 钮 

browser. find element by class name(l("Button" ) . click( ) 
time. sleep(2) 


# 登录 以 后 的 页 面 中 划分 了 Frame, 切 换 到 相应 的 Frame 中 进行 信息 提取 
browser. switch to. frame( ‘welcome') 
html] = browser. page_ source 
# 使 用 BeautifulSoup, 具体 用 法 在 第 6 草 介 绍 
soup = BeautifulSoup(html, 'html. parser ') 
LTY : 
params = soup. select('.fNewMail')[0].text. strip() 


print(" 有 "+ str(params)+" 封 新 邮件 !") 
except IndexError as e: 


print(" 没 有 新 邮件 !1") 


# 关闭 浏览 器 
browser. quit() 


return 


从 这 段 程序 可 以 看 出 ,通过 模拟 浏览 器 获取 页 面 内 容 的 主要 步骤 是 : 通过 
webdriver Chrome 初始 化 浏览 器 对 象 , 使 用 浏览 器 对 象 进 行 URL 的 访问 ,根据 页 面 中 
的 输入 框 或 按钮 的 名 称 调用 send_keys 或 click 方法 模拟 键盘 输入 或 鼠标 点 击 ,接着 通 
过 浏览 器 对 象 的 page_source 属性 获得 页 面 内 容 ,最 后 通过 quit 方法 关闭 浏览 器 对 象 。 

通过 浏览 器 组 件 来 模拟 浏览 器 的 优点 是 使 用 简单 ,复杂 的 事 都 交 给 框架 去 处 理 。 
但 是 其 缺点 也 是 很 明显 的 ,在 执行 过 程 中 需要 启动 控制 台 进 程 ,执行 速度 慢 , 需 要 动 
态 地 执行 JS, 并 模拟 人 的 浏览 器 操作 . 


1. 页 面 内 容 的 生成 方式 有 哪 几 种 ? 

2. 通过 URL 传递 请 求 参数 时 URL 的 特征 是 什么 ? 如何 获得 实际 传递 的 参数 
和 值 ? 

3. 找 一 个 实际 的 Web 页 面 ,其 中 包含 Ajax 请 求 , 并 通过 浏览 器 的 开发 者 工具 查 
看 请 求 的 URL。 

4. 编写 程序 ,实现 通过 POST 发 送 请 求 参 数 。 

5， 学 习 使 用 模拟 浏览 器 Selenium 进行 页 面 内 容 采 集 的 方法 。 


第 @ 音 
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在 各 种 类 型 的 候 虫 及 应 用 中 通常 都 会 涉及 Web 信息 提取 ,包括 Web 页 面 中 的 
URL、 内 容 等 ,因此 Web 信息 提取 技术 是 疏 虫 应 用 的 重要 基础 之 一 。 本 章 主 要 围绕 
疏 虫 提取 信息 的 需求 ,介绍 Web 信息 提取 的 技术 原理 、 典 型 方法 和 现 有 各 种 软件 开 
发 库 的 使 用 方法 。 


6.1 Web 信息 提取 任务 及 要 求 


Web 信息 提取 包含 Web 页 面 中 的 超 链接 提取 和 Web 内 容 提取 两 大 部 分 ,它们 
虱 是 网 络 息 虫 拉 术 的 重要 组 成 部 分 。 前 者 古 找 出 页 面 中 的 所 有 超 链接 或 伯 合 一 定 规 
则 的 超 链 接 ,作为 息 虫 的 息 行 任务 ,在 拉 术 实现 上 比较 简单。 后 者 古 从 Web 页 面 中 
扣 取 信息 内 容 , 一 般 是 指 页 面 中 有 意义 的 内 容 , 相 应 的 提取 技术 在 实现 上 比较 复杂 。 

超 链 接 的 提取 任务 比较 明确 ,就 是 提取 页 面 上 的 各 种 超 链接 。 超 链接 可 以 指 问 
一 个 网 页 ,也 可 以 是 相同 网 页 上 的 不 同位 置 ,还 可 以 是 图 片 . 电 子 邮 件 地 址 、 普 通 文 
件 , 甚 至 是 一 个 应 用 程序 等 。 在 本 书 2. 3 东 已 经 详细 介绍 了 使 用 正则 表达 式 进 行 超 
链接 提取 的 方法 ,本章 主 要 针对 Web 页 面 内 容 的 提取 。 


Web 页 面 中 包含 有 丰富 的 信息 内 容 , 对 互联 网 大 数据 分 析 有 用 的 信息 可 能 是 某 
新 闻 报 道 页 面 中 的 正文 部 分 ,也 可 能 是 某 网 络 论坛 中 的 帖子 信息 、 人 际 关 系 信 息 等 。 
从 Web 页 面 中 提取 内 容 , 首 先 要 对 Web 页 面 的 各 种 常见 版 面 进行 整理 归纳 。 目 前 
Web 页 面 的 版 式 各 种 各 样 , 但 可 以 归结 为 以 下 几 种 。 

一 是 新 闻 报 道 型 页 面 ,这 类 页 面 上 尽管 可 能 会 有 导航 区 、 外 部 链接 区 、 版 权 声 明 
区 等 区 域 , 但 作为 新 闻 正 文 的 文字 一 般 占 主要 的 位 置 。 典 型 的 如 图 6-1 所 示人 参 考 消 
息 网 站 的 新 闻 报道 ,页 面 的 最 上 面 是 一 些 广告 ,导航 条 ,右边 是 一 些 信息 推荐 。 对 于 
这 种 类 型 的 页 面 而 言 ,目标 就 是 提取 正文 部 分 的 内 容 。 


AR : ES 


ie 中 国 ” 时 事 ”社会 图 说 天 下 叶 撕 I 时 事 漫画 ”封面 报道 
4 I4 (hf 月 国 东亚 太 者 辣 财经 ”商业 公司 漫 车 苗 办 公 室 。 战争 之 王 
军事 ”周边 ”装备 评论 ”海外 看 中 国 3 读书 时 间 。 国际 上 先驱 导报 


-ankaoxiaoxi.com 
首页 > 正文 


骨 北 多 地 降雨 量 和 百年 一 遇 将 成 史上 最 强 过 程 之 一 


018-07-02 13:30:52 来源 : 刑 吾 盖 责任 编辑 : 


斌 荡 网 消息 ‘记者 徐 芳 实习 生 杜 婷 嫩 ) 7 月 2 日 ， 讲 北 省 人 民政 府 新 闻 办 公 室 如 
开 近 期 雨情 汛情 新 闻 发 布 会 。 湖 北 省 气象 局 短 灾 处 处 长 王 丽 介 绍 ， 人 入 梅 以 来 ， 我 省 先后 
出 现 了 四 轮 景 雨 过 程 ， 强 度 六 ， 范 围 广 ， 时 间 集 中 ， 多 地 降雨 量 白 年 一 遇 。 从 6 月 30 日 
开始 的 吊 四 花 蚂 二 过 程 情 在 持续 ， 预 计 此 纶 降水 将 成 为 史上 取 唱 过 程 之 一 。 


图 6-1 新 闻 报道 型 页 面 


二 是 列表 型 页 面 ,这 类 页 面 为 用 户 提 供 一 种 列表 式 的 阅读 ,一 般 作 为 聚集 信息 的 
访问 入 口 ,比较 和 常用 于 新 闻 列 表 、 网 络 论 坛 中 的 讨论 区 入 口 等 。 对 于 这 种 类 型 的 页 
面 , 通 背 会 遇 到 翻 页 , 即 上 一 页 、 下 一 页 等 链接 ,允许 用 户 在 不 同 的 列表 页 面 上 跳 转 。 
图 6-2 是 两 种 典型 的 列表 型 页 面 , 左 右 两 边 分 别 来 目 网 络 论 坛 和 新 闻 网 站 。 对 于 这 
种 类 型 的 网 页 而 言 , 目 标 就 是 提取 列表 部 分 的 所 有 内 容 。 

三 是 评论 型 页 面 , 用 户 在 页 面 中 对 茶 个 事物 .话题 发 表 目 己 的 观点 。 这 种 页 面 从 
整体 上 看 可 以 是 一 种 列表 型 的 ,但 人 们 更 加 关心 每 个 评论 中 的 具体 信息 。 一 般 每 个 
评论 会 有 评论 人 .评论 内 容 .评论 时 间 .评论 对 象 以 及 评论 的 一 些 量 化 信息 等 。 图 6-3 
是 大 众 扣 评 网 上 针对 菏 个 且 饰 的 评论 信息 。 对 于 这 种 类 型 的 网 页 而 言 ,目标 就 古 提 
取 每 个 评论 的 名 个 具体 信息 。 

以 上 有 古 从 测 贤 和 细 界 面 的 角度 来 看 页 面 内 容 提 取 , 而 息 忠 数据 分 析 更 天 心 程 友 处 
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sw = 天 有 有 珊 7 月 二 中 本 三 本 
标 四 作者 未 审 第 手 游 不 得 上 线 ”或 致 吧 多 手 菠 出 海 “好 生育 - 正 呢 起 
中 大 言 台 、 关 峻 乐 操 趟 特力 A 等 股票 案 罚 没 全 阁 超 。 时评 
证 监 会 三 大 配套 措施 加 强 对 芷 组 上 市 监管 时 还 评论 
证 鉴 会 : 最近 36 个 月 内 受到 环保 刑事 处 罚 的 公司 不 。 时 区 评论 
天 行 ， “人民币 市 场 异 常 波动 后 入 市 干预 ” 报道 不 时 区 评论 。 
国 国 东方 财富 证 券 万 2. 5 伍 爹 开户 ， 训 5. 99% 蔽 资 利率 ， 未 方 峙 吉 网 


' 嵌 体 : 普 委 书记 上 任 先 去 看 望 老 同 志 有 联 辫 
活期 宝 申 感 0 费用 7 日 年 化 收益 达 3-25% ne 


一 30 人 大 客车 天 津 爆 输 后 附 河 致 2 人 死亡 
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" 武汉 突 发 特大 洪水 : 浪 口 70 米 万 人 转移 


图 6-2 两 种 列表 型 页 面 


有 图 片 (1) 


长 毛 小 性 曾 

加 四 加 口味 : 2 环境 :1 服务 :1 

对 于 这 样 的 小 店 来 说 ， 价格 星 变 宕 的 。 点 了 鲜 鱼 ，68 一 斤 ， 还 有 一 点 蔬 茜 ,4 个 人 吃 掉 500 守 。 鱼 

头 烧 豆腐 汤 ， 豆 席 记 了 放 .… 也 是 酬 了 ， 味 道 也 不 鲜 ， 怪 怪 的 。 鱼 身 做 的 是 微 辣 ， 味 道 还 梅 … 
更 移 ~、 

02-16 更 新 于 16-02-16 19:10 ”布依 农家 野 苹 馆 和 ”回应 ”收藏 ”举报 


dpuser_5353435928611 
言 | 二 | 口味 : 1 环境 :1 服务 :1 


贵 的 要 处 ， 向 且 难 吃 的 很 ,但 盾 边 都 差不多 


15-10-01 上 依 家 家 对 菜馆 


图 6-3 评论 型 页 面 


理 角度 的 Web 页 面 信息 提取 。 

与 浏览 禹 界面 输出 的 效果 不 同 , Web 信息 提取 程序 所 看 到 的 是 Web 页 面 对 应 的 
HTML 编码 文件 。 例 如 对 于 上 面 的 股票 网 络 论坛 的 列表 型 页 面 ,其 对 应 的 HTML 
编码 文件 的 内 容 如 下 (其 中 列 出 了 前 面 两 个 记录 ): 


<1DOCTYPE htm] > 
< html lang= "zh 一 CN"> 
< head > 
< meta http— equiv= X- UA— Compatible”content = “IE = edge, chrome = 1 > 
< meta name =“Tenderer”content = "webkit"> 
< meta name = "viewport” content = "width= device — width, initial - Scale = 1 > 
<meta charset = “utft 一 8 > 


<title> 浪 潮 信 息 (000977) 浪潮 信息 股吧 000977 股吧 股吧 东方 财富 网 股吧 </title> 
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< meta name = "keywords” content = "浪潮 信息 _000977 股吧 "> 

< meta name = "description” content = "浪潮 信息 (000977) 东方 财富 网 股吧 "> 
</head > 
<body class = hlbody > 


<div class = “ articleh > 
< span class= "11"> 885737 </span >< span class = " 12"> 2890 </ span >< span class = 

"13">< em class = "settop"> 话 题 </em > <a href = "news,600258, 432898335. htm1" title=" 中 佬 
定 鳃 、 匡 峻 乐 操纵 特力 A 等 股票 案 罚 没 金额 超过 10 亿 元 "> 中 套 富 人 盘 、. 吴 峻 乐 操纵 特力 R 等 股票 案 
罚没 金额 超 </a > </span >< span class ="14">< a href = "http://iguba. eastmoney. com/ 
9313013693864916 data - popper = 9313013693864916 ”deta - poptype= 1 target = “_b]lank > 
财经 评论 </a></span>< span class ="16"> 07 - 01 </span>< span class = "15"> 07 -02 16:41 
</ span > 

</div> 


<div class = articleh > 
< span class = "11"> 386824 </ span >< span class = "12"> 157 </span>< span class = "13"> 

< em class = "settop"> 话 题 </em > <a href = "news, cjpl, 433467336. html" title = "证 监 会 三 大 
配套 措施 加 强 对 重组 上 市 监管 " > 证 监 会 三 大 配套 措施 加 强 对 重组 上 市 监管 </a ></span >< span 
class= "14"><a href = "http: pa eastmoney. com/9313013693864916" data - popper = 
"9313013693864916" data - poptype = "1" target = ”blank"> 财 经 评论 </a></span>< span class = 
"16">07— 02 </ span >< span class = "15"> 07— 02 16:42 </span> 

</div> 


</body > 
</htm] > 


可 以 看 出 ,两 个 帖子 记录 部 是 由 HTML 的 Tag 标签 < div class 三 "articleh"> 和 
</div > 封装 , Web 内 容 提 取 需 要 去 寻找 能 够 定位 记录 的 Tag 标签 。 当 然 , 这 种 标签 
特征 在 整个 HTML 文档 中 也 未 必 具 有 唯一 性 ,这 就 要 求 采 用 一 些 程序 上 的 技巧 或 其 
他 方式 构建 记录 的 定位 特征 。 


6.2 Web 页 面 内 容 提 取 的 思路 


虽然 Web 页 面 被 编码 成 为 一 个 文本 文件 ,但 是 它 上 只 有 一 定 的 结构 , 即 由 HTML 
标签 构成 的 树 形 结构 。 在 进行 内 容 提 取 时 充分 利用 这 种 结构 ,再 结合 一 定 的 搜索 策 
上 ,可 以 快速 获得 所 需要 的 内 容 。 考 虑 到 Web 页 面 经 常 改 版 ,这 种 基于 结构 和 搜索 
宋 略 的 方法 具有 比较 高 的 适应 能 力 , 使 得 程序 容易 维护 。 

目前 有 多 种 HTML 解析 知 的 开源 框 染 集 成 了 DOM 树 的 解析 ,并 提供 了 有 灵活 的 
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方式 对 树 进行 遇 历 和 搜索 。 与 侧 单 的 Tag 标签 匹配 不 同 ,这 种 方法 可 以 实现 基于 标 
签 在 树 中 的 特征 来 定位 要 抽取 的 信息 内 容 ,从 而 可 以 方便 地 完成 页 面 内 容 的 提取 。 


6.2.1 DOM 树 

HTML 文件 中 的 标签 构成 的 树 是 一 种 DOM 树 , DOM 是 站 续 况 约 
Document Object Model 的 简称 , 即 文档 对 象 模型 , 它 提供 了 一 种 面向 对 。“ 
象 描述 文档 的 方式 。DOM 是 W3C 组 织 ( 即 万 维 网 联盟 , World Wide Web 
Consortium) 推 荐 的 处 理 可 扩展 标志 语言 的 标准 编程 接口 ,是 W3C 制定 的 标准 ,该 
标准 包含 了 通过 DOM 方式 访问 HTML 和 XML 文档 的 方法 ,分 别称 为 HTML 
DOM 和 XML DOM。 在 Web 页面 提取 的 应 用 就 是 基于 前 一 种 标准 。 

图 6-4 是 下 面 HTML 编码 的 页 面 对 应 的 DOM 树 。< html >、< head >、< meta >、 
<body><title>< dv><a> 都 是 HTML 标签 ,它们 按照 租 套 关系 组 成 了 一 种 层次 
树 ,标签 是 树 中 的 非 叶子 节点 ,而 信息 内 容 存 在 于 叶子 节点 。 


<html >< /html > 


< head >< /head > < body >< /body > 


标题 - 
i Ce 


样 例 -www.baidu.com 


图 6-4 DOM 树 


<1DOCTYPE html PUBLIC " - //W3C//DTD XHTML 1.0 Transitional//FN" "http:/ ww. w3. org/TR/ 
xhtml117DTD/Vxhtnm11 - transitional. dtd"> 
< htm]l xmlns = "http://www.w3.org/1999/xhtml"> 
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< head > < meta http ~ equiv = "Content - Type”content = "text/html; charset = gb2312"> < title> 
标题 - www. XXXYYY. com </title></head> 
< body > 
< div id = “top_frame” class = "name"> 
<div id = “logoindex > 
样 例 
<a href = "http://www. baidu. com"> 样 例 - ww.baidu.com </a> 
</div> 
</div> 
</body > 
</htm] > 


在 HIML DOM 树 中 每 个 慷 点 虱 拥 有 包含 关于 厄 点 某 些 信息 的 属性 ,这 些 属性 
是 nodeName( 廊 点 名 称 )、nodeValue( 方 点 值 ) 和 nodeType( 太 点 类 型 )。 特 别 地 ,在 
基于 DOM 树 的 节点 信息 提取 中 通常 需要 对 节点 类 型 进行 判断 。W3C 标准 中 定义 了 
表 6-1 中 所 列 出 的 12 种 节点 类 型 。 
表 6-1 HTML DOM 中 的 节点 类 型 


Element, Text,Comment. 


or 


1] | Element Processinglnstruction, 


CDATASection、EntityReference 


2 Text、EntityReference 
| AS 代表 文档 i 
由 解析 屁 解 析 的 文本 ) 

Element、ProcessingInstruction、 

5 | EntityReference 代表 实体 引用 Comment、Text、CDATASection、 
EntityReference 
FElement、ProcessingInstruction 、 

6 | Entity 代表 实体 Comment, Text, CDATASection, 
EntityReference 

7 | ProcessingInstruction | 代表 处 理 指 令 None 


: 代表 证 和 None 


本 有 FElement、ProcessingInstruction 、 
9 | Document 代表 整个 文档 (DOM 树 的 根 节 点 ) 
Lomment、DocumentType 
10 向 为 文档 定义 的 实体 提供 接口 None 


Element、ProcesslingInstruction 、 
代表 轻 量 级 的 Document 对 象 ,能 工 LD ATA | 
ee Comment, | ext,( Section 、 
够 容纳 文档 的 某 个 部 分 


EntityReference 


DocumentFragment 
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在 HTML DOM 标准 中 定义 了 所 有 HTML 元 素 的 对 象 和 属性 ,以 及 访问 它们 
的 方法 (接口 ) ,与 具体 平台 和 编程 语言 无 和 关 。 换 而 言 之 ,HITML DOM 是 关于 如 何 获 
取 、 修 改 .添加 或 删除 HTML 元 素 的 标准 。 在 该 标准 中 ,HTML 的 各 个 组 成 部 分 都 
被 定义 为 记 点 ,并 封装 成 为 对 象 的 形式 。 在 表 6-1 所 示 的 各 类 节点 中 ,文档 方 点 
Document ,元 素 节 点 Element、 属 性 节点 Attr 和 文本 节点 Text 最 常用 在 Web 信息 抽 
取 中 。 因 此 可 通过 者 干 属 性 和 方法 来 查找 布 望 操作 或 提取 的 元 素 。 一 些 第 用 于 Web 
信息 提取 的 HTML DOM 属性 和 方法 如 下 ,更 多 条 目 可 阅读 W3C 相关 页 面 ， 
https://www. w3. org/ DOM/DOMTR. 


1. 常用 的 HTML DOM 属性 


(1) innerHTML: 表示 万 点 的 HTML 内 容 。 
(2) parentNode: 表示 厄 点 (元 系 ) 的 父 节 点。 
(3) childNodes: 表示 市 点 (元 系 ) 的 子 方 点 列表 。 
(4) attributes: 表示 方 点 (元 妹 ) 的 属性 方 点 集合 。 


2, 常用 的 HTML DOM 方法 


(1) getElementById(id) : 获取 市 有 指定 id 的 世上 点 (元 素 ) 。 

(2) getElementsByTagName(tag) : 获得 指定 tag 的 节点 (元 素 ) 。 

(3) appendChild(node); 插 人 新 的 子 万 点 (元 又 ) 。 

(4) removeChildCnode) : 删除 子 节点 (元 素 ) 。 

在 信息 提取 中 可 以 综合 使 用 上 述 属性 与 方法 ,以 及 element. nextSibling、 
element. lastChild .element. firstChild 等 ,获取 某 个 市 点 的 兄 第 、 子 六 点 以 及 HTML 
内 容 等 。 例 如 ,可 以 通过 使 用 一 个 节点 的 parentNode firstChild 和 lastChild 属性 ,用 
getElementByld() 和 getElementsByTagName() 两 种 方法 查找 整个 HTML 文档 中 的 
任何 HTML 元 系 或 六 点 ,从 而 完成 整个 Web 页 面 的 过 历 。 

BeautifulSoup 等 各 种 HTML 解析 器 对 DOM 标准 中 的 属性 和 方法 进行 了 实现 
与 封装 ,为 程序 开发 人 员 提 供 Java、Python 等 不 同 语言 的 接口 调用 ,使 得 Web 信息 内 
容 的 提取 变 得 更 加 方便 。 但是, 如果 程序 开发 人 员 从 底层 编写 Web 信息 提取 程序 ， 
就 需要 根据 HTML DOM 定义 的 这 些 标准 来 实现 。 


第 6 章 “” Web 信 息 提 取 与 Python 实现 (129 


6.2.2 提取 方法 


在 进行 Web 页 面 信息 提取 时 一 般 有 两 种 场景 : 一 种 是 针对 特定 的 网 站 ,可 以 假 
定 页 面 的 标签 结构 特征 是 已 知 的 。 这 种 场景 一 般 是 爬虫 抓 取 的 页 面 数 量 不 很 多 或 页 
面 版 式 相同 ,而 且 页 面 不 常 改版 ; 另 一 种 是 不 针对 特定 网 站 ,页 面 的 标签 结构 是 无 法 
事先 确定 的 。 对 于 网 络 爬 虫 应 用 来 说 ,这 种 场景 一 般 有 两 种 情况 : 一 是 疏 虫 抓 取 大 
量 不 同 Web 页 面 但 无 法 逐个 分 析 其 标签 结构 ; 二 是 Web 页 面 经 常 改版 ,以 至 于 标签 
结构 需要 经 常 修改 。 


下 面 介 绍 Web 信息 提取 的 3 种 基本 思路 。 
1. 基于 字符 串 匹 配 的 Web 信息 提取 方法 


从 前 面 的 HTML 例子 可 以 看 出 ,如 果 要 提取 该 文件 中 的 正文 内 容 , 即 字符 串 “ 样 
例 ”, 在 程序 处 理 中 必须 找到 该 正文 字符 串 的 边界 特征 , 即 < div id 一 "logoindex"> 和 
<a href 王 "http://www.baidu. com "> 样 例 -www. baidu. com </a >, 之 后 才能 提取 。 
因此 最 特 接 的 方法 是 将 整个 HIML 文件 内 容 作 为 一 个 字符 串 ,然后 根据 这 些 边界 特 
征 确 定 正文 内 容 的 起 始 位 置 ,最 后 利用 字符 串 晒 数 进行 规 取 。 

显然 这 种 方法 实现 简单 ,但 有 时 候 难以 找到 一 个 唯一 的 边界 特征 ,因此 扩展 性 不 
好 .适应 能 力 很 差 .缺乏 代码 的 复 用 能 力 。 


2. 基于 HTML 结构 的 Web 信息 提取 方法 


这 种 方法 就 是 根据 Web 页 面 的 结构 组 织 形 式 ( 即 标签 的 DOM 树 ) 进 行 正文 内 容 
的 边界 定位 。 其 基本 思路 描述 如 下 : 

(1) 通过 HTML 解析 器 将 Web 文档 解析 成 DOM 树 。 

(2) 确定 要 提取 的 正文 在 DOM 树 中 的 哪个 节点 或 哪些 节点 下 。 

(3) 通过 各 种 方法 定位 到 特征 市 点 ,将 节点 中 所 包含 的 内 容 提 取出 来 。 
其 中 ,第 (2) 步 是 通过 人 工 方 式 分 析 页 面 结构 ,例如 前 面 的 HTML 例子 中 ,标题 字符 
串 在 title 市 点 下 ,而 title 在 整个 HTML 文档 中 具有 唯一 性 ,因此 可 以 作为 提取 的 依 
据 。 如 果 无 法 找到 具有 标签 唯一 性 的 点 , 则 需要 采用 各 种 复杂 的 搜索 策略 ,如 通过 
DOM 树 中 的 路 径 。 


( 1 30) 
Cis 
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如 图 6-5 所 示 ,提取 标题 可 以 有 两 种 路 径 策 略 。 一 种 策略 是 从 根 节 点 开始 , 沿 着 
一 条 合适 的 路 径 达 到 该 节点 , 即 (1) 和 (2) 组 成 的 路 径 。 第 二 种 策略 是 通过 DOM 树 
的 查找 功能 找到 meta 节点 ,再 通过 element. nextSibling 获得 下 一 个 兄弟 节点 , 即 路 
径 (3) 定 位 到 title。 更 复杂 的 策略 可 能 需要 通过 寻找 父 节 点 、 兄 弟 节点 以 及 子 节点 之 
类 的 操作 来 提取 内 容 。 目 前 不 同 的 Web 信息 提取 库 大 多 提供 了 灵活 的 策略 定义 方 


法 ,为 信息 提取 提供 了 方便 。 
< html >< /html > 
(CD 
< head >< /head > < body >< /body > 
| py 2 z 
www.XXXYYY.com Ny 


样 例 -www.baidu.com 


图 6-5 ”基于 DOM 树 进行 节点 定位 的 方法 


3. 基于 统计 的 Web 信息 提取 方法 


基于 统计 的 Web 信息 提取 方法 与 基于 HTML 结构 的 提取 方法 类 似 ,都 是 先 获 
得 Web 页 面 对 应 的 DOM 树 ,但 这 个 方法 基于 统计 信息 。 其 基本 思路 是 先 利 用 解析 
需 把 网 页 按照 HTML 标记 的 结构 生成 对 应 的 DOM 树 ,然后 基于 某 种 统计 信息 来 获 
得 正文 内 容 。 这 里 的 统计 信息 要 求 能 够 把 Web 页 面 中 需要 提取 的 内 容 和 其 他 内 容 
区 分 开 来 ,由 右 干 个 统计 量 组 成 。 

基于 统计 的 Web 信息 提取 方法 具有 一 定 的 适用 性 。 这 种 方法 对 网 页 正文 信息 
的 提取 依赖 国 值 , 国 值 的 设 定 将 影响 信息 提取 的 准确 性 ,提取 的 结果 还 可 能 含有 


噪声 。 
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上 述 3 种 Web 信息 提取 方法 并 非 只 能 单独 使 用 ,可 以 根据 所 要 处 理 的 任务 灵活 
选择 和 组 合 。 但 相对 而 言 , 基 于 HTML 结构 的 Web 信息 提取 方法 比较 灵活 ,技术 上 
也 比较 成 熟 ,是 当前 Web 信息 提取 的 主流 技术 。 


6.3 基于 HTML 结构 的 内 容 提 取 方 法 


视频 讲解 
目前 ,在 Python 中 已 经 有 很 多 开源 库 可 以 用 于 实现 基于 HTML 结构 的 信息 提 
取 。 这 些 开源 库 完 成 了 DOM 树 的 构建 ,并 给 开发 人 员 提 供 了 丰富 的 搜索 宁 略 ,可 以 
灵活 方便 地 实现 Web 信息 提取 。 这 些 开 源 库 主要 有 html. parser lxml、html5lib、 
BeautifulSoup 以 及 PyQuery 等 。 
这 些 库 的 功能 基本 相同 ,但 各 有 优 缺 点 。 表 6-2 给 出 了 这 些 库 的 对 比 。 


表 6-2 不 同 开源 库 的 比较 


ee Python 自 带 的 解释 器 ,执行 速度 适中 ,文档 容 | 对 某 些 Python 版 本 的 若 容 
ee 错 能 力 强 性 不 好 
文档 容错 能 力 较 好 ,是 唯一 支持 HTML 和 
lxml XML 的 解析 器 。 其 大 部 分 源 代码 基于 CC 语言 | 需要 安装 CC 语言 库 
兼容 性 好 ,容错 性 好 以 浏览 器 的 方式 解析 文 和 
市 虹 ”和 卫 向 “ FA Pa 
htmlSlib 尚 .生成 HTML5 格式 的 文档 ,不 依赖 外 部 | 于 雪 个 四 Dymon 
扩展 
以 选择 最 合适 的 解析 器 来 角 HIML a 
BeautifulSoup erie 适 的 解析 器 来 解析 速度 仿 悍 
z 比较 简单, 而且 其 支持 的 CSS 选择 器 功能 比较 
PyQuery 


强大 。PyQuery 和 jQuery 的 语法 很 像 , 易 上 手 


5 种 解析 需 之 间 存 在 一 定 的 联系 ,理解 好 这 些 关 系 , 对 于 选择 具体 解析 器 有 一 
定 的 帮助 。 图 6-6 所 示 为 html. parser、lxml、html5lib、BeautifulSoup 以 及 PyQuery 
之 间 的 联系 。 一 个 原始 的 HTML 文档 经 过 DOM/miniDOM 或 etree 解析 和 逻辑 表 
不 之 后 ,可 以 由 html. parser、lxml、html5lib 解析 需 进 行 树 的 封装 ,并 为 用 户 提 供 相 应 
的 编程 接口 。 此 外 ,BeautifulSoup 和 PyQuery 依赖 于 其 他 解析 器 ,可 以 看 作 是 对 其 
他 解析 天 的 进一步 封 闻 或 集成 ,最 终 为 用 户 提 供 编 程 接 口 。 其 中 BeautifulSoup 试图 
让 自己 成 为 一 个 集大成 者 ,从 而 在 当前 的 Web 信息 提取 中 得 到 很 多 人 的 青睐 。 该 图 
中 的 编程 接口 主要 有 事件 驱动 .XPath、css_selector 和 类 似 于 jQuery 的 选择 器 。 
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lxml 
/ 
编程 接口 


图 6-6 不 同 解析 此 之 间 的 联系 


BeautifulSoup | 人 DOMminiIPOM 
py \ 


在 实际 编程 中 应 当选 择 何 种 开源 库 进 行 Web 信息 提取 ,主要 考虑 两 方面 的 因 
系 : 一 是 编程 效率 ; 二 是 运行 效率 。 根 据 这 里 所 描述 的 各 种 开源 库 的 天 系 及 优 缺 点 
可 以 看 出 ,BeatifulSoup 由 于 调用 了 其 他 开源 库 , 其 运行 效率 会 比较 低 ,但 是 其 编程 方 
式 何洁 ; http. parser、lxml 等 提供 了 事件 驱动 .XPath、CSS 选 撞 表 等 方法 ,在 处 理 复 
杂 页 面 内 容 提取 任务 时 有 更 好 的 灵活 性 。 

以 下 5 个 小 古 分 别 介绍 了 这 5 个 解析 化 ,从 每 个 解析 天 定义 的 HTML 文档 解析 
方法 .程序 设计 方法 和 实例 3 个 方面 进行 说 明 。 


6.3.1 html. parser 


1. 定义 


在 html. parser 中 定义 了 一 个 名 称 为 HTMLParser 的 类 , 它 是 Python 中 自 带 的 
标准 类 ,可 以 用 来 对 HTML/XHTML 编码 的 文本 文件 进行 解析 。 以 下 是 关于 类 和 
方法 的 定义 。 

该 类 的 定义 如 下 : 


class html. parser. HIMLParser( * , convert charrefs = True) 


其 中 ,参数 convert_charrefs 表示 是 否 将 所 有 的 字符 (除了 script/style 元 系 之 外 ) 引 
用 目 动 转化 为 Unicode 形式 ,Python 3.5 以 后 的 默认 值 是 True。 


主要 方法 (method) 的 定义 如 下 : 

。 HTMLParser. feed(data) : 接收 字符 串 类 型 (str) 的 HTML 内 容 , 并 开始 解析 。 

。 HTMLParser. handle starttag(tag，attrs); 对 开始 标签 的 处 理 方 法 。 其 中 
tag 是 标签 名 称 ,attrs 是 标签 的 属性 和 属性 仁 。 例 如 < div id 二 "pbox"> 这 个 
标签 ,参数 tag 指 的 是 div, attrs 指 的 是 (id，pbox) 这 样 的 属性 和 属性 值 
(Cname,value) 所 组 成 的 列表 . 

。 HTMLParser. handle_ endtag(tag): 表示 对 结束 标签 tag 的 处 理 。HTML 中 
的 结束 标签 一 般 都 是 市 /的 ,例如 </ div >。 

。 HTMLParser. handle_data(data) : 对 开始 标签 和 结束 标签 之 间 的 数据 进行 处 
理 。 例 如 对 于 < div id 王 "pbox"> test </div>, 这 里 的 data 就 是 “test”。 

。 HTMLParser. handle_comment(Cdata) : 对 HTML 中 注释 的 处 理 方 法 。 

。 HTMLParser. handle_ decl(decl) : 对 HTML 文档 类 型 的 处 理 方 法 ,文档 类 型 
一 般 是 由 <! DOCTYPE html >) 进 行 声 明 的 。 

。 HTMLParser. getpos(): 返回 当前 行 和 相应 的 偏 移 量 。 

。 HTMLParser. close() : 当 遇 到 文件 结束 标签 后 进行 的 处 理 方法 。 

。 HTMILParser, reset(): 重 置 HTMLParser 实例 ,该 方法 会 于 掉 未 处 理 的 
HTML 内 容 。 


2. 程序 设计 方法 


使 用 HTMLParser 进行 Web 页 面 信息 的 提取 ,其 程序 设计 思路 不 同 于 普通 的 过 
程式 编程 方法 ,不 是 凋 用 这 个 类 所 提供 的 各 种 方法 ,因此 很 有 必要 了 解 HTMLParser 
类 与 开发 者 之 间 的 接口 方式 。 

HTMLParser 提供 给 开发 人 员 的 是 一 种 事件 驱动 的 模式 ,对 于 给 定 的 HTML 文 
本 输入 ,HTMLParser 提供 了 一 系列 事件 作为 编程 接口 ,这 些 事 件 就 是 前 面 定 义 的 各 
种 方法 (method) 。 事 件 发 生 的 顺序 按 如 下 次 序 进 行 : 


handle starttag—>handle data—>handle comment—>handle endtag 


HTMLParser 接收 相应 的 HTML 内 容 , 并 进行 解析 ,对 HTML 标签 进行 壳 历 ， 
在 遍历 过 程 中 过 到 每 一 个 标签 时 会 目 动 调用 相应 的 handler( 处 理 方法 ), 即 按照 上 述 
顺序 来 处 理 每 一 个 标签 。 因 此 ,对 于 开发 者 而 言 ,就 是 通过 创建 相应 的 子 类 来 继承 
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HTMLParser, 并 且 重 写 相 应 的 handler 方法 来 实现 信息 内 容 的 提取 ,这 充分 体现 了 
面 问 对 和 象 编程 方法 的 继承 和 重 与 两 大 思维 。 


3. 实例 


这 里 看 一 段 商 单 的 程序 ,展示 了 从 下 面 这 段 HTML 文本 中 提取 出 < hl align= 
"center"> 标 签 中 的 内 容 , 即 “Big data news” 和 “ AI news”。 


< htm] >< head >< title> Test </title></head>< body>< hl align = "center"> Big data news </hl > 
<hl align = "center"> AT news </hl >< hl align = "right"> 2018.8.1 </h]l ></body ></htm] > 


基本 思路 就 是 构造 一 个 解析 类 ,该 类 继承 HTMIParser,; 重 写 handle starttag、 
handle data 和 handle _endtag 方法 。 在 handle_starttag 中 确定 要 提取 的 信息 所 在 的 
标签 ,在 handle_data 中 提取 数据 。 

具体 如 下 。 


Prog- 5- HIMLParser -七 est. py 
from html. parser Import HTMLParser 


class MyHTMLParser (HTMLParser): # 继承 HTMLParser 类 
ctag = False # 当前 解析 的 标签 是 否 为 内 容 所 在 的 标签 
def handle starttag(self, tag, attrs): 
Horinl bqinat ISO) # 打开 后 可 以 跟踪 标签 处 理 过 程 
EE # 要 提取 的 信息 在 < hl > 标签 中 
for attr in attrs: 
if attr[1] == 'center': # 要 提取 的 信息 的 标签 具有 center 属性 值 
self. ctag = True # 找到 符合 条 件 的 标签 
break 


def handle datal(l self, data): 


# print( 'handle a tag') # 打开 后 可 以 跟 踊 标签 处 理 过 程 
1f self. ctag == True: # 是 否 为 符合 条 件 的 标签 


print("Extracted data :",，data) # 获 得 数据 


def handle endtag(self, tag): 


# print('end a tag:' + tag) # 打开 后 可 以 跟 踊 标 签 处 理 过程 
self. ctag = False # 一 个 标签 处 理 完毕 后 标志 位 复原 


parser = MYHTMLParser( ) 
parser. feed('< htm] >< head >< title> Test </title ></head >' 

'<body><hl align = "center"> Big data news </hl > < hl align = "center"> AI news 
</hl >< hl align= "right"> 2018.8.1 </hl ></body></htn] >') 
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运行 后 可 以 看 到 程序 的 输出 如 下 : 


Extracted data : Big data news 


Extracted data : 有 AI news 
>>> 


利用 html. parser 进行 解析 的 一 个 优势 是 , 当 输 入 的 HTML 文档 中 存在 标签 不 完整 
或 有 错误 的 情况 下 , 它 仍 然 可 以 正确 解释 。 例 如 在 该 例子 中 ,如 果 < title > 缺失 或 有 误 , 均 
不 会 影响 正 篆 的 解 机。 当然, 如 果 是 提取 程序 中 所 用 到 的 标签 有 误 就 无 法 正确 解析 了 。 


0.3.2 1xml 


1. 定义 


Ixml 包 (package) 为 开发 人 员 提 供 了 很 强 的 功能 来 处 理 HTML 和 XML 文档 ， 
它 也 是 Python 语言 中 最 容易 使 用 的 库 之 一 。lxml 是 libxml2 和 libxslt 两 个 C 语言 
库 的 Python 化 绑 定 , 它 的 独特 之 处 在 于 兼顾 了 这 些 库 的 速度 和 功能 完整 性 ,同时 还 
具有 Python API 的 调用 。 

lxml 中 包含 了 以 下 重要 模块 (modules)。 

。 lxml. etree: 该 模块 实现 了 文档 的 扩展 ElementTree API。 

。 lxml. html; 处 理 HTML 的 工具 集 。 

。 lxml. builder: 生成 XML 文档 的 方法 。 

。 lxml. cssselect: 基于 XPath 的 CSS 选择 硕 。 

此 外 还 有 lxml. ElementInclude、 lxml. _ elementpath、 lxml. doctestcompare、 
Ixml. sax、lxml. tests 等 模块 。 

etree 模块 为 HTML 的 解析 提供 了 丰富 的 功能 ,是 解析 HTML 文档 和 常用 的 模块 
之 一 ,需要 重点 掌握 。 在 etree 的 4.2.2 版 本 中 一 些 主要 的 类 如 下 ， 

1) Element 


etree. Element 是 对 DOM 树 中 布点 的 封装 , 它 的 主要 方法 如 下 。 


。 find(Cself,path,namespaces 王 None): 通过 tag 名 称 或 路 径 查 找 第 一 个 匹配 的 和 点 。 
。 findall(self,path,namespaces 王 None): 通过 tag 名 称 或 路 径 查 找 所 有 匹配 的 斑点 。 


。 findtext(Cself,path,default 王 None,namespaces 王 None): 通过 tag 名 称 或 路 
径 查 找 下 一 个 匹配 节点 的 文本 信息 。 
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。 get(self,key,default 二 None); 获得 方 点 的 属性 ，。 

。 getchildren(self) : 获得 有 所 有 生 接 子 廊 

。 getnext(self) : 获得 该 点 的 下 一 个 见 肿 和 点 。 

。 getparent(self) : 获得 该 慷 点 的 父 广 点, 根 太 点 (root) 的 父 万 点 为 None。 

。 getprevious(self) : 获得 该 万 点 的 前 一 个 兄弟 和 点 。 

其 主要 属性 有 text ,tag ,attrib ,tail 等 ,可 以 获得 节点 的 相关 信息 。 

2) 上 lementTree 

etree，ElementTree 是 对 DOM 树 的 封装 , 它 的 主要 方法 如 下 。 

。 find(self,path,namespaces 二 None); 通过 给 定 的 tag 查找 第 一 层 的 节点 ,等 
同 于 tree. getroot(). findCpathy) 。 

。 findall(self,path,namespaces 王 None) : 查找 所 有 与 ElementPath 表达 式 匹 配 
的 节点 ,等同 于 getroot(). findall(path)。 

。 findtext (self, path, default 二 None, namespaces 二 None): 查找 第 一 个 与 
ElementPath 表达 式 匹 配 的 节点 的 文本 ,等 同 于 getroot(). findtext(path)。 

。 getpath(self,element): 返回 一 个 指 回 element 节点 的 绝对 XPath 路 径 表 达 式 。 

。 getroot(Cself) : 获得 树 的 根 忆 点 

在 lxml 中, 上述 find ,findall findtext 使 用 ElementPath, 是 一 种 类 似 XPath 的 

语言 ,是 XPath 的 一 个 子 集 。_Element 和 _ElementTree 还 分 别 具 有 XPath 因数 , 文 
持 XPath 培 言 实现 元 系 的 定位 。 两 者 的 区 别 如 下 。 
如 果 是 相对 路 径 ，Element. xpath 是 以 当前 方 点 为 参考 的 ，ElementTree. xpath 


以 根 为 参考 。 

如 果 是 绝对 路 径 ，ElementTree. xpath 是 以 当前 节点 的 getroottree 的 根 节 点 为 
参考 的 。 

etree 模块 除了 提供 一 些 类 以 外 ,还 提供 了 丰富 的 函数 用 于 Web 信息 提取 ,主要 
如 下 。 

(1) fromstring (text, parser 二 None, base_url 二 None); 从 文本 字符 串 中 解析 
HTML 内 容 , 并 返回 Element 类 型 的 根 节 点 。 

(2) HTML(text,parser 二 None,;base_url 二 None); 从 HTML 文件 字符 串 中 解 
析 HTML 树 , 返 回 根 方 点。 与 fromstring 的 主要 区 别 是 : 它 对 于 不 规范 的 HTML 


全 人 文本 有 自动 纠 错 能 力 ， 
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(3) parse(source,parser 一 None,base_url 王 None): 解析 文件 类 型 对 象 , source 
为 文件 名 ,返回 ElementTree 类 型 的 对 象 。 

此 外 ,XMI(text, parser 二 None,base_url 二 None) 可 以 用 于 从 text 字符 串 中 解 
析 XML 文档 。 

关于 lxml 的 API 的 更 多 介绍 可 以 查阅 网 站 “https://lxml. de/api/”。 


2. 程序 设计 方法 


在 使 用 1xml 进行 Web 信息 提取 时 ,最 主要 的 问题 是 如 何 进行 节点 的 定位 。lxml 
提供 了 三 种 方式 定位 市 点 ,一 是 XPath, 二 是 树 的 遍历 困 数 ,三 是 CSS 选择 器 。 在 程 
序 设计 中 可 以 根据 实际 情况 单独 使 用 一 种 方式 或 多 种 一 起 使 用 。 

lxml 库 中 包含 的 主要 模块 有 etree、html、cssselect 等 ,在 程序 设计 时 主要 有 以 下 
3 个 步骤 。 

首先 利用 etree 提供 的 fromstring 等 方法 读 取 HTML 内 容 , 获 得 Element 类 型 
的 节点 或 者 ElementTree 类 型 的 对 象 。 

接 下 来 利用 解析 得 到 的 Element 或 ElementTree 的 xpath .cssselect find .findall 
等 方法 来 定位 要 提取 信息 的 节点 。 

最 后 从 节点 中 提取 信息 。 

本 市 介绍 XPath 的 方法 ,CSS 选择 天 的 方法 将 在 6. 3.4 方 中 介绍 。 相 对 于 其 他 
ElementTree 类 型 的 包 来 说 ,lxml 包 最 大 的 优势 在 于 它 文 持 全 部 的 XPath 语言 。 
XPath 是 W3C XSLT 标准 的 主要 元 素 , 并 且 XQuery 和 XPointer 都 构建 于 XPath 表 
达 之 上 。 基 于 XPath 语言 的 表达 式 提供 了 一 种 非常 强 有 力 的 方法 从 一 个 文档 中 选择 
所 需要 的 市 点 。 因 此 ,基于 1xml 进行 Web 信息 提取 的 程序 设计 ,需要 进行 XPath 表 
达 式 的 编写 。 由 于 XPath 隶属 于 1xml 库 模 块 , 所 以 首先 要 安 交 lxml 库 。 

XPath 表达 式 指出 了 在 DOM 树 中 从 节点 A 开始 到 节点 B 的 一 条 路 径 , 类 似 于 
操作 系统 中 的 文件 位 置 描述 一 样 ,也 可 以 有 绝对 路 径 和 相对 路 径 之 分 。 在 路 径 表 达 
式 中 可 以 使 用 的 基本 元 素 有 基本 路 径 .谓词 (Predicates) .运算 符 以 及 一 些 特殊 符号 。 
下 面 分 别 介绍 这 些 基本 元 素 ,完整 的 介绍 可 以 参考 官方 网 站 “https://www. w3. org/ 
TR/xpath/all/”,。 

1) 基本 路 径 的 符号 
基本 路 径 的 符号 如 表 6-3 所 示 。 
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表 6-3 XPath 中 的 基本 路 径 符 与 


nodename 表示 某 个 且 体 的 节点 当前 节点 


7 所 有 节点 ,而 不 考虑 它们 的 位 置 


2) 请 请 
谓语 用 来 查找 某 个 特定 的 方 点 或 者 包含 某 个 指定 的 值 的 方 点 ,可 以 被 散在 方 括 


号 中 ,和 常用 的 谓词 有 last() ,text() .contains() 、starts-with() .not() 等 。 


一 些 带 谓词 的 路 径 表示 的 例子 如 下 ， 
/bookstore/book[11] 选取 属于 bookstore 子 元 素 的 第 一 个 book 元 素 
/bookstore/book[ last()] 选取 属于 bookstore 子 元 素 的 最 后 一 个 book 元 素 
/div[ contains( @ id, 'in')] 选取 id 中 包含 有 “in” 的 div 节点 


/div[ starts — with((@id, 'in')] 选取 以 “in” 开 头 的 id 属性 的 div 节点 
/input[@name = 'identity' and not (contains((@class, 'a'))] 选取 出 name 为 identity 并且 
class 值 中 不 包含 a 的 input 节点 


3) 特殊 符号 

在 XPath 中 可 以 使 用 的 特殊 符号 有 @ 和 x* ,它们 的 用 法 如 下 。 

。 (@ : 表示 选取 属性 。 

: 表示 匹配 任何 元 素 节 点 ,XPath 通配符 可 以 用 来 选取 未 知 的 HTML 


以 下 是 看 十 个 典型 的 例 于 : 


//title[ (@ lang] 选取 所 有 拥有 lang 的 属性 名 称 的 title 元 素 

//title[(@1lang= 'eng'] ”选取 所 有 title 元 素 , 且 这 些 元 素 拥 有 值 为 eng 的 lang 属性 

/1/* [gclass= "main 一 title"] 选取 所 有 拥有 属性 名称 class, 并 且 对 应 的 属性 值 为 main - 
title 的 元 素 , 而 不 管 节点 的 标签 是 什么 

//¥* [@id= "top bar"]/div/div[2]/span 选取 所 有 拥有 属性 名 id, 并且 其 属性 值 为 top_bar 
的 节点 ,在 这 些 节 点 下 选择 div 子 节点 ,然后 选择 该 子 节点 下 面 的 第 二 个 div 子 节点 ,最 后 以 其 下 
面 的 span 子 节 点 作为 最 终 选 取 的 结果 


4) 运算 符号 

在 XPath 中 可 以 使 用 的 运算 有 四 则 运算 (十 ,一 、x* 、div) .关系 运算 (= 二、!== <、<=、 
>,、> 一 )、 逻辑 运算 (and.or), 此 外 还 支持 求 余 数 (mod)。 这 些 运算 作为 谓词 的 一 部 
分 , 藤 入 在 方 插 号 中 。 例 子 如 下 : 
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/bookstore/book[ last() -1] 选取 属于 bookstore 子 元 素 的 倒数 第 二 个 book 元 素 
/bookstore/book[position()<3] 选取 最 前 面 的 两 个 属于 bookstore 元 素 的 子 元 素 的 book 元 素 
/bookstore/book[price> 35.00] 选取 bookstore 元 素 的 所 有 book 元 素 , 并且 其 中 的 price 元 素 
的 值 必须 大 于 35.00 

/bookstore/book[price> 35.00]/title 选取 bookstore 元 素 中 的 book 元 素 的 所 有 title 元 素 ， 
并 且 其 中 的 price 元 素 的 值 必须 大 于 35. 00 


3. 实例 


Prog - 6 - lxml - test.py 


【 例 6-1】 对 于 给 定 的 HTML 文档 ,提取 body 中 的 3 行 信息 。 


<html >< head >< title > Test </title></head>< body>< hl align = "center"> Big data news </hl > 
< hl align = "center"> AT news </hl >< hl align = "right"> 2018.8.1</Phl ></body ></htm]l > 


基本 思路 症 通 过 路 径 "/html/body/hl "定位 到 这 3 行 , 再 分 别 对 每 一 行 从 标签 中 


提取 内 容 , 具 体 说 明 如 下 。 


#coding:utf—8 
from lxm] import etree # 加 载 解析 鸣 


html] = '<html >< head >< title > Test </title></head>< body >< hl align = "center"> Big data 
news </hl >< hl align = "center"> AT news </hl >< hl align = "right"> 2018.8.1 </hl ></body > 
</htm] >， 
content = etree. fromstring(htm]) 
rows = content. xpath( "/html/body/hl ') 井 根据 路 径 表 达 式 获得 所 有 符合 条 件 的 节点 
for row in rows: # 对 每 个 节点 进行 处 理 
t= row.xpath('. /text()'}[0] 
print(t) 
Big data news 
AI news 


2018.8.1 
>>> 


【 例 6-2] 表 格 数 据 的 提取 。 


html = '< html > < head > < title > Test </title > </head > < body > < table id = " tablel" 
cellspacing = "0px">< tr><th> 学 号 </th><th> 姓 名 </th>< th> 成 绩 </th></tr><tr><td> 
1001 </td >< td> 曾 平 </td><td> 90</td></tr><tr><td>1002 </td><td> 王 一 </td>< td> 
92 </td></tr><tr><td>1003</td><td> 张 三 </td><td> 89 </td></tr ></table></body > 
</html >， 

content = etree. HTML(html) 

rows = content. xpath{('//table[@id= "table1"]/tr')[1:] 
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for row in TOWS : 
id = row. xpath('. /td[1]/text()')[0] 
name = row.xpath('./td[2]/text()')[0] 
score = row.xpath('. /td[3]/text{()')}[0] 
print(id, name, score) 


1001 曾 平 90 
1002 王 一 92 
1003 张 莽 88 


>>> 
在 这 个 例子 中 ,如 果 只 提取 表格 中 的 最 后 一 个 记录 , 则 将 xpath 改 为 '//tablel @id== 
"tablel"j/trLlast() | ' 即 可 ,这 里 就 使 用 了 last() ,表示 最 后 一 个 tr 元 系 ( 廊 点 )。 


0.3.3 htmlslib 


1. 定义 


html5lib 是 Ruby 和 Python 用 来 解析 HTML 文档 的 一 个 类 库 , 支 持 HTML 5 以 及 
最 大 程度 兼容 果 面 浏览 瘟 。html5lib 包 中 包含 了 constants、html5parser、serializer 几 个 
模块 以 及 filters treebuilders ,treewalkers 和 treeadapters 几 个 子 包 (Subpackages)。 
其 中 ,treebuilders 子 包 提供 了 对 给 定 HTML 文档 构建 不 同类 型 树 的 模块 ,包含 了 
dom ,etree、etree_lxml 等 重要 模块 ,而 treewalkers 子 包 中 包含 了 base、dom etree、 
etree_lxml、genshi 等 模块 。 对 于 更 多 说 明 , 读 者 可 以 但 阅 网 站 (网 址 为 http:// 
html5lib. readthedocs. i0o/en/latest/index. html”, 

比较 重要 的 类 或 模块 介绍 如 下 : 

1) HTMLParser 

html5parser 中 定义 的 HTMLParser 类 对 于 解析 HTML 而 言 是 比较 重要 的 , 它 
的 声明 是 “html5lib. html5parser. HTMLParser (tree = None, strict = False， 
namespaceHTMLElements 王 True,debug 王 False)”, 其 中 的 参数 含义 如 下 。 

。 tree: 决定 构造 函数 要 返回 的 树 的 类 型 ,是 一 种 TreeBuilder 类 。 
。 strict: 解析 时 对 文本 的 处 理 是 否 严 格 ，。 
。 namespaceHTMLElements: 是 否 产 生 HTML 元 素 的 命名 空间 。 

HTMILParser 类 的 主要 方法 是 parse, 通 第 使 用 构造 滑 数 对 输入 的 HTML 文件 、 
HTML 文本 串 进行 解析 ,具有 多 人 态 性 。 为 了 方便 使 用 html5lib 还 直接 输出 了 parse， 
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因此 可 以 通过 html5lib. parse() 来 使 用 。 

2) TreeBuilder 

在 treebuilders 子 包 中 base 模块 的 TreeBuilder 等 类 提供 了 自 定 义 树 类 型 的 途 
径 ,但 是 在 实际 Web 信息 提取 的 程序 设计 中 使 用 内 置 的 树 就 足够 了 。 内 置 的 树 类 型 
有 以 下 3 种 。 

。 dom: DOM 的 实现 。 

。 etree: 类 似 于 ElementTree 树 。 

。 lxml: etree 类 型 的 树 。 

如 果 将 解析 HTML 时 的 树 指 定 为 lxml, 那 么 就 可 以 利用 lxml 的 解析 方法 来 提 
取 Web 信息 。 内 置 树 的 类 型 可 以 通过 treebuilders 的 getTreeBuilder() 函数 来 实现 ， 
同样 为 了 方便 使 用 ,html5lib 也 直接 输出 了 getTreeBuilder()。 


2. 程序 设计 方法 


html5lib 也 是 采用 过 程式 的 程序 设计 思路 ,在 进行 Web 信息 提取 时 ,根据 所 要 
提取 的 内 容 的 不 同 可 以 选择 合适 的 方法 。 对 于 提取 正文 内 容 , 可 以 有 多 种 选择 。 

(1) 直接 通过 html5lib 执行 parse 方法 ,该 方法 返回 一 棵 解析 好 的 etree, 然 后 就 
可 以 用 etree 的 xpath 方法 来 指定 要 提取 的 内 容 的 路 径 , 从 而 获取 信息 

(2) 如 果 要 处 理 的 页 面 比较 多 ,使 用 第 一 种 方法 需要 重复 一 些 与 parse 方法 同样 
的 参数 ,因此 可 以 先 使 用 html5lib. HTMLParser 构造 一 个 解析 器 ,然后 执行 该 解析 
做 的 parse 方法 人 处 理 不 同 页 面 。 

(3) 有 时 候 , 要 提取 的 信息 难以 用 xpath 的 路 径 来 表达 ,例如 要 提取 Web 页 面 中 
所 有 的 超 链 接 , 针 对 每 个 超 链接 写 一 个 路 径 当 然 可 以 ,但 是 编程 效率 太 低 。 在 这 种 情 
况 下 可 以 利用 etree 的 模式 匹配 能 力 , 运 用 findall 等 方法 从 HTML 文档 中 找 出 所 有 
符合 条 件 的 标签 。 

(4) 对 于 html5lib 来 说 ,其 最 大 的 优势 在 于 可 以 处 理 不 完整 .不 规范 、 有 错误 标 
签 的 HTML 文档 ,能 够 进行 自动 修复 ,因此 在 一 些 场合 下 使 用 html5lib 进行 Web 页 
面 信息 的 提取 具有 一 定 优势 。 


3. 实例 


在 下 面 的 例子 中 展示 了 4 有 段 程序 ,分 别 说 明了 前 面 提 到 的 4 种 情况 ,更 详细 的 说 
明 见 程序 备注 。 
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Prog - 7 - html5lib - test.py 
#-—-*— codingqg: utf -8 一 关 一 
import html51ib 


print(' 通 过 指定 treebuilder 来 解析 : ') 
document = '<html >< head>< title> Test </title></head >< body >< hl align = "center"> Big 
data news </ hl ><hl align = "center"> AT news </hl >< hl align = "right"> 2018.8.1 </hl > 
</body ></html >' 
# 直接 调用 html51ib. parse() 来 解析 ,在 解析 时 采用 lxml 构建 树 的 方法 
content = htm1511ib. parse(document, treebuilder = "lxml",namespaceHTIMLElements = False) 
# 指定 要 提取 的 内 容 所 在 的 标签 路 径 
rows = content. xpath( '/html/body/h1 ') 
for row in TOWS : 
t= row. xpath( '. /text()')[0] # 定位 到 标签 节点 后 通过 text() 提 取 内 容 
print(t) 


print(' 通 过 指定 tree 来 解析 :') 
document = '< html >< head >< title> Test </title ></head >< body >< hl align = "center"> Big 
data news </hl >< hl align = "center"> AI news </hl >< hl align = "right"> 2018. 8. 1 </hl > 
</body ></html >， 
# 构造 HTMLParser 实例 ,指定 构造 lxml 的 树 
p = html5lib. HTMLParser ( strict = False, tree = htm1511ib，getTreeBuilder ( "' lxml ' )， 
namespaceHTMLElements = False) 
# 解析 HTML 文档 
t= p.parse(document) 
rows = 七 . xpathf '/html /body/h1') 
for row in rows: 
t= row. xpath('. /text()')[0] 
print(t) 


print( ' 通 过 指定 tree 来 提取 超 链接 :') 
document = '< html >< head >< title> Test </title></head>< body ><a href = "www. baidu. com"> 
baidu </body > </html >' 
P = html5lib. HTMLParser ( strict = False, tree = html5]lib. getTreeBuilder ( ' lxml ' )， 
namespaceHTMLElements = False) 
t= Dp.parse(document) 
# 通 过 findall() 来 查找 所 有 标签 名 称 为 a 的 节点 
a tags = t.findalll".//a") 
for a ina tags: 
url = a.attrib["href"]  # 通 过 属性 名 称 来 获得 属性 值 
print(url) 


print( ' 处 理 标 签 不 完整 或 有 错误 的 HTML: ') 

# 这 个 HTML 文档 中 有 不 完整 的 标签 : 缺少 一 个 </hl >; 有 错误 的 标签 : </ml > 

document = '< html >< head >< title> Test </title ></head >< body >< hl align = "center"> Big 
data news </hl ><hl align = "center"> AI news < hl align = "right"> 2018.8.1 </ml ></body > 
</html >' 
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p = html5lib. HTMLParser ( strict = False, tree = html5lib. getTreeBuilder ( ' lxm] ' ), 
namespaceHTMLE lements = False) 
t= p.parse(document) 
rows = t. xpath( '/html /body/h1 ') 
for row in TOWS : 
t= row. xpath('. /text()')[0] 
print(t) 


该 程序 运行 后 的 输出 如 下 ,可 以 看 出 提取 出 了 正确 的 结果 ,特别 是 对 于 标签 不 完 
整 或 有 错误 的 HTML 文档 也 能 获得 正确 的 结果 。 


通过 指定 treebuilder 来 解析 : 
Big data news 

Al news 

2018.8.1 

通过 指定 tree 来 解析 : 

Big data news 

AIl news 

2018.8.1 

通过 指定 tree 来 提取 超 链接 : 
www. baidu. com. 

处 理 标签 不 完整 或 有 错误 的 HTML: 
Big dat a news 

Al news 


2018.8.1 
>>> 


0.3.4 BeautifulSoup 


1. 定义 E Et 
视频 讲解 


BeautifulSoup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 , 目 前 最 
新 版 本 为 BeautifulSoup 4.7.1, 简 称 bs4, 即 BeautifulSoup 4。 现 在 BeautifulSoup 3 已 经 
停止 开发 。BeautifulSoup 4 可 以 用 于 Python 2(2.7 十 ) 和 Python 3。 

bs4 是 一 个 包 (package) ,其 中 包含 了 BeautifulSoup、EntitySubstitution .builder、 
AnnouncingParser 等 类 。 在 这 些 类 中 BeautifulSoup 使 用 得 最 多 ,因此 很 多 人 就 认为 
BeautifulSoup 和 bs4 是 一 样 的 ,但 其 实 不 然 。 

BeautifulSoup 将 HTML 文档 转换 成 一 个 树 形 编 构 , 尽 管 续 构 上 可 能 比较 复杂 ， 
但 是 从 程序 设计 角度 看 ,只 要 处 理 4 种 类 型 的 Python 对 象 , 即 Tag、NavigableString、 
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BeautifulSoup 和 Comment。 

1) Tag 的 具体 说 明 

Tag 对 应 于 HTML 文档 中 的 tag 标签 ,分 别 用 <> 和 </> 表 明 它 的 开始 和 结尾 。 
从 下 面 的 程序 段 可 以 看 出 Tag 的 完整 名 称 是 bs4. element. Tag。 

soup = BeautifulSoup('<b class = "boldest"> Extremely bold</b>', 'lxml') 

tag = soup.b ”上 ## 获 得 标签 b 


typel tag) 
#<class 'bs4. element. Tag'> 


一 个 Tag 可 能 包含 多 个 字符 串 或 其 他 的 Tag, 这 些 都 是 这 个 Tag 的 子 市 点 。 
Tag 最 重要 的 属性 是 name( 名 称 ) 和 一 个 或 多 个 attributes( 属 性 )。BeautifulSoup 提 
供 了 许多 方法 来 操作 和 遍历 所 有 属性 。 一 些 在 Web 信息 提取 中 比较 重要 的 Tag 属 
性 的 说 明 如 下 。 

(1) name: 每 个 标签 都 有 一 个 名 称 , 可 以 通过 . name 属性 获得 ,例如 在 上 面 的 例 
于 中 通过 tag. name 就 可 以 得 到 标签 名 b。 

(2) attributes: 每 个 标签 可 以 有 任意 多 个 属性 ,在 上 面 的 例子 中 标签 b 有 一 个 属 
性 class, 对 应 的 属性 值 为 boldest。 用 户 可 以 通过 tagL'class'] 的 方式 来 获得 属性 值 ， 
也 可 以 耳 接 通过 tag. attrs 来 获得 成 对 的 属性 和 属性 信 。 

在 HTML 5 中 有 许多 标签 的 属性 值 是 多 值 的 ,例如 class、 rel、 rev、accept- 
charset、headers 等 ,BeautifulSoup 将 这 种 多 值 属性 的 值 当 作 list 处 理 。 大 家 可 以 从 
下 面 的 程序 段 了 解 相 应 的 list。 


css_soup = BeautifulSoup('<p class= "body strikeout"></p>') 
css_soup. pl 'class'| 
并 ["body", "strikeout"] 间 属 性 class 具有 两 个 值 body 和 strikeout 


如 果 一 个 属性 看 起 来 有 多 个 值 , 但 是 在 任何 HTML 版 本 标准 中 都 没有 把 它 定 义 
为 多 值 属性 ,那么 BeautifulSoup 就 会 保持 原样 。 例 如 以 下 的 “my 1d” 作 为 id 值 ,并 非 
是 多 值 。 

id soup = BeautifulSsoup('<p id= "my id"></p>') 


id soup. p[ 'id'] 
村 'my id' 
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(3) children: 表示 Tag 的 直接 子 和 点 ,对 于 soup 二 BeautifulSoup('< head >< title > 
The Dormouse''s story </title></head>'), 可 以 通过 如 下 循环 来 查看 head 的 每 个 直接 
Hs 


b= soup. head. children 
for child in b: 
print(child) 


(4) contents: 一 个 Tag 的 子 万 点 被 放 人 一 个 list, 称 为 contents。 

对 于 soup 一 BeautifulSoup('< head >< title > The Dormouse''s story </title > 
</head >'), 则 soup. head. contents, 值 为 | < title > The Dormouses story </title > | ; 
soup. head. contents10j, 值 为 < title > The Dormouses story </title >; soup. head. 
title. contents| 0 | ,人 为 The Dormouses story。 

(5) descendants: 这 个 属性 表示 Tag 下 点 的 所 有 后 续 节 点 。 对 于 上 面 的 例子 ， 
head 的 descendants 有 两 个 ,一 个 是 title 标签 三 点 ,一 个 是 文本 太 点 ,也 就 是 < title > 
The Dormouses story </title > 、The Dormouses story。 

(6) parent: 这 个 属性 表示 Tag 慷 扣 的 父 态 扣 , 例 如 '< head >< title > The 
Dormouse''s story </title ></head >' 是 <title> The Dormouse''s story </title > 的 父 

(7) parents: 这 个 属性 表示 Tag 帮 上 点 的 父 书 点 到 整 棵 树 根 世 点 路 径 上 的 所 有 而 
点 。 它 类 似 于 children 属性 ,可 以 通过 一 个 循环 来 查看 父 玉 点 百 到 根 世 点 为 止 。 

(8) next_sibling/ next_siblings: 考虑 一 个 人 简单 的 HTML 文本 <a><b> textl </b > 
<c> text2 </c></b></a>, 市 点 bb 的 next_sibling 为 <c> text2</c>, 但 是 对 于 市 点 
c, 它 没有 next_sibling, 即 对 应 的 值 为 None。next_siblings 则 是 万 点 的 所 有 右 邻 

(9) previous_sibling/previous_siblings: 如 上 面 的 例子 ,市 点 c 的 previous 
sibling 为 <b> textl </b>。 同 样 ,对 于 厄 点 b, 它 的 previous_sibling 从 为 None。 
previous_siblings 则 是 万 点 的 所 有 左 邻 斑点 。 

(10) has_attr: 用 于 判断 一 个 Tag 是 否 具 有 指定 的 属性 ,如 果 有 ,has_attr 的 值 
为 True, 否则 为 False。 

(11) find,findAllPrevious findAll findAllNext 等 : 这 些 方法 用 于 为 Tag 市 点 
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查找 符合 条 件 的 节点 。 

2) NavigableString 的 具体 说 明 

BeautifulSoup 使 用 这 个 类 封 波 标签 内 的 非 属性 字 和 从 串 ,并 可 以 通过 < tag >. string 
来 获取 ,实际 上 就 是 文本 市 点 ,这 是 一 种 NavigableString 类 型 的 字符 串 。 
NavigableString 文 持 对 字符 串 的 各 种 导航 .搜索 操作 ,因此 它 具 有 parent、 
ETA 村 和 有 志和 

3) Comment 的 具体 说 明 

这 是 对 标签 内 字符 串 的 注释 部 分 的 封装 ,从 下 面 的 程序 段 可 以 看 出 HTML 中 的 
备注 字符 串 属 于 bs4. element. Comment 类 型 。 

markup = "<b><!-- Hey, buddy. Want to buy a used parser? -- ></b>" 

soup = BeautifulSoup(markup) 

comment = soup.b. string 


typel( comment) 
#<class 'bs4.element. Comment'> 


4) BeautifulSoup 的 具体 说 明 

除了 上 面 3 种 类 之 外 ,还 有 一 个 重要 的 类 
文档 的 封装 。 

该 类 有 具有 的 属性 如 下 : 

(1) tag 的 名 称 , 这 即 是 前 述 的 Tag 类 。 


(2) name、head 、title、body、contents 、children 、descendants string,、 strings、 


BeautifulSoup , 它 是 对 整个 HTML 


original _ encoding 等 。 

该 类 具有 的 方法 有 find findAll、select、select one 、prettify .encode get_text 等 。 
对 于 这 些 方法 的 典型 用 法 的 介绍 如 下 。 

(1) 搜索 文档 树 : find() 用 来 搜索 单一 广 操 ,find_all() 用 来 搜索 多 个 市 点 。 因 
此 ,find_all() 得 到 的 结 采 是 一 个 列表 ,soup. find() 只 返回 第 一 个 符合 条 件 的 节点 ; 
find() 后 面 可 以 直接 跟 . text 或 者 get_text() 来 获得 标签 中 的 文本 ,其 使 用 方法 和 节 
点 一 样 。 

find 的 完整 参数 形式 是 find(name 二 None,attrs 二 {),recursive 二 True, text 一 
None, **x kwargs) ,可 以 根据 标签 ,标签 属性 、 文 本 、 正 则 表达 式 以 及 函数 进行 三 点 匹 
配 。 例 如 : 
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items = soup. find (id = " zwconttbn") # 在 HTML 文档 中 查找 标 等 属性 为 id 属性 值 为 
“zwconttbn>” 的 标签 


通过 items 王 soup. find(attrs 二 《4'id':"zwconttbn"})) 也 可 以 达到 同样 的 效果 ,只 


不 过 是 改 成 用 attrs 参数 来 匹配 。 


findAll 的 完整 参数 形式 是 findAll(name,attrs, recursive, text，#xx kwargs), 返 


回 的 结果 是 一 个 列表 (list)。 其 中 ,name 参数 可 以 查找 所 有 名 字 为 name 的 tag, 例 如 
soup. findAll ('b'); recursive 参数 表示 是 否 迭 代 搜 索 子 请 点 。 其 允许 正则 表达 式 的 
形式 ,例如 : 

import re 


for tag in soup. findAll(re. compile( '*b')): 


print!(tag. name) 


太一 种 方式 是 以 关键 字 为 参数 ,例如 : 


# 查找 id 为 1ink2 
soup. findAll( id = '1ink2') 
# 如 果 想 用 class 过 滤 , 但 class 是 Python 的 关键 词 , 需 要 加 一 个 下 画 线 


soup. findAll('a', class = "sister") 


(2) CSS 选择 需 : 这 种 方式 使 用 select 方法 ,允许 通过 标签 名 、 类 名 ,id 名 以 及 组 


全 查找 、 于 标签 查找 。 在 查找 时 ,最 重要 的 模式 是 由 标签 名 、 类 名 、id 和 了 于 标签 组 成 。 


标 


签名 不 加 修饰 ,类 名 前 加 点 ,id 名 前 加 # ,于 标签 通过 > 或 空格 定义 。 


与 XPath 相 比 ,CSS 提供 了 很 简 清 的 选择 方式 ,在 Web 信息 提取 中 广泛 应 用 。 
一 些 例 子 如 下 : 


soup. select('title') 井 通 过 标签 名 查找 

soup. select('. sister') # 通过 类 名 查找 , 即 匹 配 具 有 class = 'sister' 的 节点 
soup. select('# Link1') ## 通过 id 人 名 查找 

soup. select('p # 1ink1') 组 合 查 找 , 即 匹配 < pid= 'linkl1'> 的 节点 

soup. select("head > title") # 直接 通过 子 标 签 查找 (> 前 后 加 空格 ) 


soup. select('. list > #1ink1') 间 class 人 名称 为 list 的 标签 节点 下 id 和 名称 为 Linkl 的 子 节 点 


elect 方法 返回 的 结果 是 list 类 型 ,可 以 通过 下 标 和 text 属性 得 到 内 容 , 例 如 : 


soup. Select( 'title')[0].text # 这 个 语句 获得 页 面 的 title 内 容 
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特 列 地 ,如 条 类 名 本 号 市 有 空格 , 则 应 该 用 点 代 蔡 其 中 的 空格 。 例 如 ,对 于 < div 


class 一 "zwli clearfix"> 的 选择 ,应 该 使 用 soup. select('div. zwli. clearfix') 。 
2. 程序 设计 方法 


在 进行 程序 设计 前 ,需要 通过 pip install beautifulsoup4 安装 BeautifulSoup ,这 样 
才能 使 用 。 

BeautifulSoup 本 号 并 没有 包含 解析 文档 的 代码 ,而 只 是 提供 一 些 便 单 的 、 
Python 式 的 函数 用 来 处 理 导 航 .过 历 .搜索 以 及 修改 HTML 树 的 功能 。 解 析 HTML 
文档 的 功能 是 通过 现 有 的 各 种 解析 硕 ,包括 Python 标准 库 中 的 HTML 解析 从 ,以 及 
一 些 第 三 方 的 解析 器 ,例如 lxml html5lib。 在 默认 情况 下 ,BeanutifulSoup 4 默认 使 用 
标准 库 中 的 html. parser。 

BeautifulSoup 对 HTML 文档 进行 解析 时 ,取决 于 所 指定 的 解析 硕 , 具 体 方法 
如 下 : 


BeautifulSoup(htm1l，Pparser) 


其 中 html 是 要 解析 的 HTML 内 容 ( 字 符 串 ),parser 可 以 是 ' html. parser' 、lxml ' 或 
'html5lib'。 如 果 采 用 后 面 两 个 ,第 要 先 安 法相 应 的 解析 桥 。 
可 以 认为 ,BeautifulSoup 是 在 各 种 解析 此 的 基础 上 封装 了 一 些 HTML 树 的 操 
作 功 能 ,因此 它 对 HTML 文档 的 解析 速度 一 般 不 会 比 它 所 依赖 的 解析 器 快 。 但 是 ， 
由 于 它 封 装 后 所 提供 的 API 操作 功能 比较 完整 .简洁 ,所 以 目前 得 到 了 广泛 的 应 用 。 
从 程序 设计 角度 看 ,需要 以 下 步骤 。 
(1) 指定 解析 右 ,创建 BeautifulSoup 对 象 。 
(2) 使 用 select 或 find .findAll 等 方法 来 定位 、 获 取 相 应 的 标签 内 容 。 


3. 实例 


以 下 一 段 HTML 文档 取 目 实际 页 面 中 的 部 分 ,目的 在 于 提取 其 中 的 新 闻 标 题 、 
发 布 日 期 .消息 来 源 和 消息 内 和 容 。 相 关 提 取 方 法 的 调用 见 标注 。 


Prog- 8- bs- sinanews. py 
#—* 一 coding: utf—8 一 # 一 
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from bs4 import BeautifulSoup 


html = "'"" 

< html >< body>< div id = "second - title"> 访 华 前 这 个 国家 的 总 理 说 "感谢 中 国体 谅 "</div> 
<div class = "date— source > 

< span class= "date"> 2019 年 03 月 27 日 21:30 </span></div> 

< span class = "publish source"> 和 参考 消息 </span > 

< div class = “ article > 

<p> 原 标题 : 锐 参考 | 访 华 前 ,这 个 国家 的 总 理 说 : "感谢 中 国体 谅 !"</p> 
<p>" 非 常 感谢 中 国 的 理解 ! "</p > 

<p> 在 25 日 的 新 闻 发 布 会 上 , 新西兰 总 理 杰 辛 达 : 阿 德 恩 这 样 说 道 .</p> 
</div> 

</body ></htm] > 


[| 


soup = BeautifulSoup(htm]l, 'lxm]l') 


# id 名 前 加 划 
title = soup. select('div# second— title')[0].text 


井 类 名 (class) 前 加 点 
date = soup. select( "span, date')[0]. text 


井 类 名 中 的 空格 用 点 替换 , 即 publish. source 


source = soup. select( 'span. publish. source') [0 ].text 


# 子 标签 通过 > 定义 : p 是 div.article 的 子 标签 
content = soup. select('div.article > p') 
contentstr = "" 

for i in rangel(len(content)): 


contentstr 十 = content[i].text+"\n" 


print(" 标 题 : ",title) 

print( "发 布 日 期 : ",date) 

print( "消息 来 源 : ",source) 
print( "消息 内 容 : "，contentstr) 


以 下 十 输出 结 末 : 


标题 : 访 华 前 这 个 国家 的 总 理 说 “感谢 中 国体 谅 ” 

发 布 日 期 : 2019 年 03 月 27 日 21:30 

消息 来 源 : 参考 消息 

消息 内 容 : 原 标 题 : 锐 参 考 | 访 华 前 ,这 个 国家 的 总 理 说 :“ 感 谢 中 国体 谅 1”“ 非 常 感谢 中 国 的 
理解 1” 

在 25 日 的 新 闻 发 布 会 上 ,新 西 兰 总 理 杰 辛 达 : 阿 德 恩 这 样 说 道 . 


find findAll 用 于 市 点 的 选择 也 非常 方便 ,对 于 这 个 例子 的 HTML 文档 ,findAll 
的 使 用 方法 及 效果 如 下 。 


U 
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soup. findAll(attrs = {"class", "date"}) # 通过 attrs 参数 指定 标签 的 属性 名 和 属性 值 
[< span class = "date"> 2019 年 03 月 27 日 21:30 </span>] 


soup. findAll(name = span ) # 通过 name 参数 指定 标签 的 名 称 
[< span class = "date"> 2019 年 03 月 27 日 21:30</span>，< span class = "publish source"> 参 
考 消 息 </span>] 


0.3.3 PyQuery 


1. 定义 


PyQuery 是 一 个 主要 的 Python 库 , 它 具有 类 似 于 JavaScript 框架 一 一 jQuery 的 
功能 。PyQuery 使 用 lxml 解析 器 在 XML 和 HTML 文档 上 进行 操作 ,并 提供 了 和 
jQuery 类 似 的 语法 来 解析 HTML 文档 , 它 文 持 CSS 选择 天 ,使 用 也 非 向 方便 。 其 官 
方 文档 可 在 “http://packages. python. org/pyquery/” 上 查阅 。 


2. 程序 设计 方法 


如 采 要 使 用 该 库 , 和 首先 要 通过 pip install pyquery 安 农 。 安 农 完 成 后 通过 以 下 语 
可 加 载 吨 数 : 


from pyquery import PyQuery 


在 程序 设计 上 , 它 与 其 他 库 一 样 ,主要 步骤 有 初始 化 .定位 (选择 或 查找 ) 要 提取 
的 节点 和 提取 信息 3 个 步骤 。 

1) 初始 化 

PyQuery 有 几 种 初始 化 的 方法 , 即 可 以 通过 传人 HTML 文档 的 字符 串 、 指 回 页 
面 的 URL 或 HTML 文件 初始 化 。 例 子 如 下 : 


from pyquery Import PyQuery as pq 


d = pq("< htm]l >...</html >") # 传 人 字符 串 
d = pq(url= 'http://google.com/') 划 传 人 URL 

d = pq(filename = htm] file) # 传 人 文件 
2) 主要 操作 


(1) html() 和 text(); 获取 相应 的 HTML 块 或 者 文本 内 容 。 
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(2)('selector'); 通过 选择 硕 来 获取 目标 内 容 。 

(3) find(): 查找 元 素 。 

(4) filter(): 根据 class id 彤 选 指定 元 系 。 

(5) attr() : 获取 、 修 改 属 性 值 。 

(6) children(); 获取 子 元 又 。 

(7) parents(): 获取 父 元 素 。 

(8) next() : 获取 下 一 个 元 系 。 

(9) nextAll(): 获取 后 面 全 部 元 素 块 。 

对 于 这 些 操作 的 详细 用 法 ,读者 可 以 参考 在 线 文 档 , 或 者 在 Python 中 通过 help 
(pyquery. PyQuery) 查 看 帮助 和 例子 的 解释 。 


3. 实例 
使 用 与 6. 3.4 相同 的 HTME 来 展示 PyQuery 的 使 用 。 


Prog - 9 pyquery - sinanews. py 
#—*— coding: utf -8 一 关 一 
from pyquery import PyQuery 


html="'"" 

< html >< body><div id = "second 一 title"> 访 华 前 这 个 国家 的 总 理 说 “感谢 中 国体 谅 ”</div> 
<div class= "date— source'> 

< span class = "date"> 2019 年 03 月 27 日 21:30 </span></div> 

< span class = "publish source"> 参 考 消 息 </span> 

<div class = "article"> 

<p> 原 标题 : 锐 参考 | 访 华 前 ,这 个 国家 的 总 理 说 :“ 感 谢 中 国体 谅 !1”</p> 
<p>“ 非 党 感谢 中 国 的 理解 1”</p> 

< p> 在 25 日 的 新 闻 发 布 会 上 ,新 西 兰 总 理 杰 辛 达 。 阿 德 思 这 样 说 道 .</p> 
</div> 

</body ></html > 


py = PyQuery(html) 井 初 始 化 一 个 PyQuery 对 象 ,从 而 可 以 基于 该 对 象 使 用 上 述 操作 


# id 名 前 加 划 

title = py('div# second — title')[0]. text 选择 器 
# 类 名 (class) 前 加 点 

date = py( 'span. date')[0]. text # 选择 器 


# 类 名 中 的 空格 用 点 蔡 换 , 即 publish. source 
source = py( 'span. publish. source')[0]. text # 选择 器 
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# 子 标签 通过 > 定义 
content = py('div.article> p') 井 选择 器 
contentstr = 
for i in range(len(content)): 
contentstr 十 = content[i].text+"\n" 


print(" 标 题 : ",title) 

print(" 发 布 日 期 : ", date) 
print(" 消 息 来 源 : ", source) 
print(" 消 息 内 容 : "，contentstr) 


运行 结果 如 下 : 


标题 : 访 华 前 这 个 国家 的 总 理 说 “感谢 中 国体 谅 ” 

发 布 日 期 : 2019 月 03 月 27 日 21:30 

消息 来 源 : 参考 消息 

消息 内 容 : 原 标 题 : 锐 参考 | 访 华 前 ,这 个 国家 的 总 理 说 :“ 感 谢 中 国体 谅 !”“ 非 常 感谢 中 国 的 
理解 1” 

在 25 日 的 新 闻 发 布 会 上 ,新 西 兰 总 理 杰 辛 达 ， 阿 德 恩 这 样 说 道 。 


法 及 效果 如 下 : 
# 通 过 标签 body 找到 body 节点 ,在 该 节点 下 查找 所 有 标签 为 div 的 节点 xs = py('body').find('div') 
#xs 是 一 个 PyQuery 对 象 ,可 以 用 xs 对 应 的 子 树 继续 使 用 CSS 选择 
d=xs( .date- source . date ) 


##d 是 一 个 PyQuery 对 象 列表 ,要 提取 的 时 间 在 第 一 个 节点 
print(d[0].text) 


6.4 基于 统计 的 Web 内 容 抽 取 万 法 


对 于 Web 疏 虫 而 言 , 爬 取 到 各 种 各 样 的 页 面 , 大 部 分 可 能 是 从 事先 并 不 知道 的 
Web 站 点 ,因此 在 后 续 的 提取 过 程 中 无 法 事先 为 这 些 站 点 上 的 负面 设 定 正文 的 特征 
标记 (Tag) 或 三 点 在 树 中 的 位 置 ,也 就 不 能 和 卫 接 利用 前 面 所 提 到 的 方法 。 为 外 一 种 场 
景 是 , 尽 官 候 忠 息 取 固定 的 条 些 网 站 页 面 ,但 是 网 站 也 会 经 第 升级 改版 ,由 此 导致 写 
好 的 程序 针对 新 版 失 戏 了。 

处 理 这 些 场景 下 的 页 面 内 容 提 取 ,提取 程 友 就 需要 有 一 定 的 入 能 性 ,能 够 目 动 识 
别 某 个 Web 页 面 上 的 正文 位 置 ,其 前 提 是 在 没有 人 工 参 与 的 情况 下 。 一 种 典型 的 方 
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法 是 基于 统计 的 页 面 信息 提取 ,其 基本 步骤 如 下 : 

(1) 构建 HTML 文档 对 应 的 DOM 树 ; 

(2) 基于 某 种 特征 来 构建 基于 DOM 树 的 信息 提取 规则 ; 

(3) 按照 规则 从 HTML 中 提取 信息 。 

在 这 个 处 理 流程 中 ,最 重要 的 是 信息 提取 规则 。 规 则 的 制定 或 生成 方法 有 以 下 
两 种 。 

第 一 种 是 通过 启发 式 方法 。 一 般 通 过 人 工 对 HTML 页 面 进行 观察 和 总 结 , 以 
DOM 树 所 确定 的 基本 组 成 单位 为 规则 中 的 特征 ,人 工 估 计 其 对 应 的 特征 值 ,从 而 形 
成 启发 式 规则 。 常 用 的 特征 包括 每 个 节点 (Node) 所 包含 的 文本 信息 内 容 的 多 少 
(TextSize) .每 个 节点 所 包含 的 标签 个 数 (tagCount) 每 个 节点 内 有 和 链接 与 无 链接 文 
本 条 内 字符 总 个 数 的 比值 (LinkTextCountRatio)、 链 接 锚 文本 的 平均 字符 个 数 
(LinkAvgCount) 。 

除 此 以 外 ,还 可 以 找到 更 多 特征 。 根 据 这 些 特征 ,制定 启发 式 规则 对 页 面 上 的 内 

进行 识别 和 提取 。 例 如 : 


if LinkTextCountRatio(Ni)> 2 and LinkAvgCount(Ni)<=6 then Ni 为 导航 区 


这 个 规则 对 DOM 树 中 的 节点 Ni 从 LinkTextCountRatio 和 LinkAvgCount 两 
个 特征 做 了 限定 ,如 果 符 合 这 个 条 件 , 则 认为 该 节点 对 应 一 个 导航 区 。 

类 似 地 ,考虑 到 页 面 中 的 正文 区 内 通 币 会 有 较 多 的 字符 , 即 TextSize 较 大 ,并 且 
所 包含 的 超 链接 比较 少 , 所 以 可 以 根据 这 些 特征 制定 判断 规则 。 

显然 ,这 种 方法 的 有 效 性 取决 于 规则 的 合理 性 ,主要 是 特征 值 的 具体 取 值 。 为 了 
避免 启发 式 规则 中 的 人 为 因素 , 另 一 种 方法 就 是 采用 机 器 学 习 的 方法 来 计算 最 佳 的 
特征 值 。 

第 二 种 是 机 器 学 习 方 法 。 这 种 方法 通过 人 工 选 择 大 量 的 HTML 页 面 ,并 对 页 面 
中 的 正文 区 域 进 行 标注 ,再 由 程序 计算 正文 节点 中 各 种 特征 对 应 的 特征 值 ,以 及 其 他 
类 型 节点 对 应 的 特征 值 ,从 而 将 正文 节点 的 判断 转换 成 为 一 个 分 类 问题 , 即 根据 某 些 
特征 及 特征 值 判 断 节点 是 否 为 正文 。 这 样 的 问题 显然 合适 用 机 器 学 习 方法 来 解决 。 

这 种 方法 的 优点 是 可 以 通过 样本 和 机 器 学 习 的 方法 获得 最 佳 的 特征 值 , 从 而 避 
免 判 断 上 的 主观 性 ,提升 判断 的 准确 性 。 其 缺点 是 需要 有 一 定量 的 人 工 标注 样本 。 
需要 注意 的 是 ,前 面 提 到 的 基于 HTML 结构 的 信息 抽取 方法 中 也 涉及 抽取 规 
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等 ,因此 其 适用 性 比 这 里 所 讨论 的 


则 ,但 这 些 是 比较 简单 的 规则 ,例如 信息 块 的 位 
基于 统计 的 方法 要 差 一 些 。 


思考 题 
1. 什么 是 DOM 树 ? 
2. 各 种 典型 的 Web 信息 抽取 包 之 间 有 什么 联系 ? 
3. 谈 一 谈 html. parser 的 事件 驱动 编程 方法 。 


4. 针对 实际 网 页 ,使 用 BeautifulSoup 进行 页 面 内 容 抽取 。 
5. 分 析 基 于 HTML 结构 的 Web 页 面 抽取 方法 存在 的 问题 。 
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主题 候 虫 也 称 为 聚焦 息 虫 (Focused Crawler) 。 从 功能 上 看 与 普通 爬虫 不 同 , 它 
主要 采集 与 菜 些 预先 设 定好 的 主题 相关 的 Web 页 面 。 在 互联 网 大 数据 分 析 中 ,此 类 
爬虫 目 标明 确 , 更 有 价值 。 本 章 主 要 介绍 主题 朴 虫 的 体系 续 构 和 关键 拉 术 ,包括 主题 
模型 .主题 相似 度 及 其 在 主题 爬虫 中 的 应 用 等 。 


7.1 主题 爬虫 的 使 用 场景 
主题 个 虫 具有 明确 的 任务 ,而 这 种 任务 是 以 主题 方式 定义 的 。 主 题 疏 虫 的 应 用 
场景 主要 有 以 下 三 大 类 ， 


1. 垂直 搜索 引擎 


垂直 搜索 引擎 给 用 户 提供 了 某 个 特定 领域 的 全 文 检 索 服务 ,因此 其 数据 通常 来 
自 于 互联 网 上 与 领域 相关 的 页 面 。 各 种 面向 特定 领域 的 让 虫 ,例如 旅游 领域 候 虫 、 财 
经 新 闻 疏 虫 等 ,都 是 属于 这 一 类 。 这 种 疏 虫 对 信息 的 时 效 性 并 没有 太 多 要 求 , 可 以 是 
新 的 主题 内 容 , 也 可 以 是 关于 领域 的 一 般 知 识 的 话题 。 
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针对 当前 网 络 上 的 热点 话题 ;所 抓 取 的 热点 话题 可 以 是 随时 变化 的 。 通 第 是 肝 
一 个 热点 事件 ,例如 * 疫 盏 事件 2 和 ”世界杯 足 球 豆 "等 。 其 搜索 光 围 一 般 是 新 闻 网 站 、 
社交 媒体 。 这 种 主题 时 效 性 强 、 纺 含 看 较为 让 另 的 内 容 ,包含 有 较 多 的 于 话题 。 


3. 商业 情报 搜索 


互联 网 上 蕴含 了 各 种 商机 ,因此 不 少 公 司 会 到 网 上 寻找 商机 。 例 如 ,关于 钢材 等 
大 宗 商 品 的 需求 。 针 对 这 种 类 型 的 应 用 ,爬虫 一 般 会 到 一 些 主 要 的 客户 网 站 去 检索 
是 否 有 相关 的 需求 发 布 。 相 比 于 熏 情 监测 ,这 种 主题 并 没有 太 多 的 子 话题 ,主题 也 相 
对 比较 明确 。 


7.2 主题 怜 虫 技术 框 殿 


图 7-1 是 主题 朴 虫 的 技术 构成 ,从 功能 实现 的 角度 看 ,主题 仆 虫 在 普通 爬虫 的 基 
础 上 培 加 了 主题 定义 .链接 相关 上 度 佑 算 和 内 容 相 关 度 计算 三 大 技术 实现 。 因 此 ,与 音 
通 爬 虫 的 体系 结构 相 比 ,主题 朴 虫 扩展 了 虚 框 中 的 3 个 部 分 。 

在 扩展 部 分 ,由 页 面 解析 华 提 取得 到 的 超 链接 需要 经 过 链接 相关 度 的 估算 ,初步 
估计 为 可 能 是 与 主题 相关 的 超 链接 之 后 才 进 行 爬 行 策 略 的 搜索 。 同 时 ,页 面 解 机 全 
在 主题 仆 虫 中 还 需要 完成 一 项 重要 的 任务 ,就 是 提取 页 面 中 的 正文 部 分 。 再 由 新 增 
加 的 内 容 相 关 度 计算 模块 对 这 些 正文 信息 计算 主题 的 相关 度 , 最 后 将 相关 度 符合 要 
求 的 页 面 存 储 到 本 地 系统 。 在 内 容 相 关上 度 计算 和 链接 相关 上 度 售 算 的 过 程 中 虱 需 要 利 
用 茶 个 生成 好 的 主题 信息 。 

主题 信息 是 主题 爬虫 中 最 为 重要 的 部 件 , 它 为 两 个 相关 度 计 算 提 供 街 量 标准 , 因 
此 要 求 主题 信息 必须 容易 锌 用 于 相关 上 度 计 算 。 在 两 个 相关 上 度 计算 过 程 中 实际 上 隧 合 
了 某 种 过 滤 过 程 ,也 束 是 把 不 符合 相关 上 度 要 求 的 页 面 过 小 挥 ,这 种 决 傈 通常 是 由 用 户 
来 执行 ,具体 可 体现 为 用 户 设 定 相关 度 国 什 。 因 此 ,这 种 相关 度 计 算 方法 要 能 为 国 值 
的 设置 提供 有 效 的 参考 。 如 有 朱 相 似 度 能 控制 在 一 定 范 围 彤 ,那么 用 户 在 设 定 这 些 国 
值 参 数 时 就 会 比较 心中 有 数 。 因 此 ,图 7-1 左 上 角 的 “用 户 ? 需 要 完成 两 项 工作 , 即 主 
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用 户 


加 而 硬 醒 国 醒 


URL 疏 行 任务 


图 7-1 主题 候 虫 的 体系 架构 


题 的 设 定 ` 包括 链接 相关 度 和 内 容 相 关 度 在 内 的 主题 相关 度 大 小 的 国 值 设 定 。 
在 主题 朴 虫 中 ,主题 是 核心 部 分 ,在 具体 实现 时 主题 的 生成 和 相关 度 的 计算 都 需 
要 涉及 对 文本 内 容 的 处 理 , 这 个 处 理 过 程 可 以 用 图 7-2 来 表示 。 在 这 个 流程 中 ,由 用 
户 提供 一 个 代表 主题 的 文本 集 , 其 中 的 文档 都 与 主题 相关 。 针 对 这 些 文档 ,经 过 词汇 
切 分 把 每 个 文档 中 的 词汇 识别 出 来 ,将 其 中 没有 实际 含义 的 停 用 词 删除 ,这些 词 一 般 
是 虚词 代词 等 ,删除 之 后 对 主题 的 表达 几乎 没有 影响 。 这 两 个 步骤 称 为 文本 预 处 
理 。 然 后 进行 特征 选择 或 特征 提取 ,选择 出 最 能 够 代表 主题 的 春 干 词汇 ,具体 词汇 的 
个 数 取 决 于 用 户 设 定 的 但。 之 后 就 可 以 用 现 有 的 主题 模型 描述 方法 来 构建 主题 , 常 
用 的 有 问 量 空间 主题 模型 、.LDA 主题 模型 等 。 在 完成 建 模 之 后 将 主题 模型 存储 起 
来 ,这 个 过 程 是 在 主题 伶 虫 工作 之 前 进行 的 。 

在 构建 好 主题 模型 之 后 ,可 以 对 某 个 页 面 内 容 进 行 主 题 的 相关 度 计算 。 基 本 方 
法 是 从 页 面 中 提取 出 信息 内 容 , 对 这 些 文本 信息 内 容 进 行 同样 的 预 处 理 , 与 主题 模型 
进行 相关 度 计 算 , 从 而 为 主题 朴 虫 的 主题 判断 提供 依据 。 将 相关 度 符 合 要求 的 页 面 
人 存储 下 来 ,将 不 相关 的 页 面 丢 径 。 
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二 本 文本 特征 本 
pl 文本 预 处 理 主题 建 模 


主题 的 代表 性 
文档 集 
| 页 面 内 容 主题 相关 度 | 


苹 


相关 度 是 否 
付 合 要 求 ? 


图 7-2 主题 模型 构建 与 应 用 流程 


可 以 看 出 ,主要 技术 包括 文本 预 人 处理 ,主题 及 实现 技术 ,主题 相关 度 计 算 等 。 本 
章 后 续 围 绕 主 题 模型 构建 及 相关 度 计 算 中 的 主要 技术 进行 介绍 ,文本 预 处 理 、 高 级 主 
题 建 模 等 技术 是 各 类 有 息 虫 采集 应 用 的 共性 技术 问题 ,将 在 第 11 章 进 行 介 绍 。 


7.3 主题 及 其 表示 


主题 代表 着 某 种 叙事 范围 , 疏 虫 在 这 个 范围 内 进行 页 面 内 容 的 检测 。 最 大 的 问 
题 (也 是 最 难 的 问题 ) 就 是 如 何 定义 主题 ,如 何 描述 一 个 主题 。 从 目前 所 使 用 的 方法 
看 ,主要 有 以 下 几 种 方法 。 

一 是 采用 关键 词 集 来 描述 一 个 主题 。 如 果 想 抓 取 与 “大 数据 ”有 关 的 页 面 ,最 简 
单 的 方法 就 是 用 “大 数据 ”这 个 词汇 作为 主题 的 定义 ,但 不 含有 大 数据 的 页 面 也 可 能 
是 与 “大 数据 ?相关 的 ,例如 一 些 讨 论 数据 挖掘 技术 的 页 面 。 因 此 采用 关键 词 集 描 述 
主题 时 ,和 需要 尽 可 能 完整 地 考虑 到 所 关注 的 主题 可 能 涉及 的 天 键 词 。 

二 是 对 关键 词 集 进行 某 种 划分 ,通过 对 子 主题 的 描述 来 实现 对 整个 主题 的 定义 。 
例如 对 于 “大 数据 ”这 个 主题 ,可 以 按照 交通 ,金融 等 应 用 领域 来 划分 大 数据 ,也 可 以 
按照 采集 存储、 挖掘 等 技术 构成 来 划分 ,从 而 产生 不 同 的 子 话题 。 

主题 的 定义 ,最 终 要 能 够 方便 链接 相关 度 和 内 容 相 关 度 的 计算 ,因此 它 必须 有 一 
种 比较 明确 的 数学 表达 形式 。 根 据 上 面 两 种 方法 的 叙述 ,它们 所 采用 的 数学 表达 方 
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式 分 别 如 下 ,具体 的 分 析 说 明 在 本 书 的 后 续 革 三 中 会 展开 。 

对 于 关键 词 集合 的 方式 ,在 数学 模型 上 可 以 采用 回 量 空间 模型 来 表达 。 回 量 空 
则 模型 将 词汇 作为 维度 ,将 词汇 的 权重 作为 相应 的 坐标 ,因此 主题 就 可 以 表达 成 为 回 
量 空间 中 的 一 个 后。 在 这 种 模型 中 考虑 一 种 特殊 情况 ,词汇 的 权重 值 只 有 两 种 取 值 , 即 
0 或 1, 这 种 特殊 的 同 量 空间 模型 称 为 布尔 模型 。 主 题 用 这 类 模型 可 以 统一 表述 为 : 

二 一 (iT ) (7-1) 

其 中 ,n 表示 关键 词 的 个 数 ,w; 表示 第 i 个 关键 词 的 权重 。 除 了 0、1 权重 外 , 词 频 也 
是 一 种 常见 的 权重 。 

对 于 子 主题 的 措 


J 本 


述 方式 ,在 数学 模型 上 通常 采用 概率 模型 ,例如 高 斯 混合 模型 、 
主题 模型 (Topic Model) 等 。 主 题 TT 用 这 类 模型 可 以 统一 表述 为 : 


P(T)= So | T,) 全 
其 中 ,K 表示 子 主题 的 个 数 ,表示 第 ?个子 主 题 的 成 分 系数 ,p(x 1 工 ) 表 示 第 ;个 
子 主题 在 词汇 空间 上 的 分 布 ,z 即 词汇 空间 中 的 词汇 向 量 。 
上 述 是 从 数学 模型 表示 的 角度 考虑 主题 定义 的 方法 ,但 是 从 图 7-1 来 看 ,在 主题 
翁 虫 中 需要 由 用 户 ( 即 使 用 者 ) 来 定义 主题 。 然 而 由 用 户 给 出 上 述 模 型 , 即 式 (7-1)、 
(7-2) 中 的 参数 ,这 是 一 件 非常 困难 的 事 。 因 此 ,在 实际 应 用 中 由 用 户 提供 一 些 能 够 
代表 主题 的 文本 集 , 经 过 模型 的 推理 后 自动 产生 模型 定义 ,这 个 推理 过 程 会 在 第 11 音 
中 进行 详细 的 介绍 。 加 入 了 这 一 过 程 , 息 虫 看 起 来 具有 一 定 的 自学 习 能 力 。 


7.4 相关 度 计算 


在 主题 他 虫 中 ,相关 度 的 计算 包含 了 链接 相关 度 和 内 容 相关 度 计 算 两 大 部 分 。 
它们 在 整个 主题 疏 虫 的 处 理 流程 中 起 到 的 作用 不 同 ,但 不 管 是 哪 一 个 ,它们 的 共性 问 
题 都 是 文本 与 主题 模型 的 相关 度 计算 。 为 此 ,下 面 先 介绍 文本 与 主题 的 相关 度 ,再 分 
别 介绍 链接 相关 度 和 内 容 相关 度 。 


7.4.1 主题 相关 度 的 计算 


对 于 问 量 空间 的 特例 一 一 布尔 模型 ,主题 实际 上 是 用 一 系列 不 同 的 词汇 组 成 , 即 


(160) 
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一 个 词汇 的 集合 , 记 为 A。 页 面 的 文本 内 容 在 经 过 处 理 之 后 ,也 可 以 用 一 个 词汇 集合 
表示 , 记 为 B。 两 者 的 相关 度 可 以 通过 集合 相似 度 来 定义 ,典型 的 计算 方法 是 
Jaccard 相似 系数 (Jaccard similarity coefficient) , 即 : 


IANB IANB 
IAUB|I |Al+|BI-IANB| 


当 集 合 A、B 都 为 空 时 ,J(A,B) 定 义 为 1 

例如 ,对 于 大 数据 主题 ,可 以 定义 该 集合 为 A= 二 {大 数据 ,存储 ,采集 ,挖掘 ,特征 ， 
息 虫 ,平台 ,分 布 式 } ,假设 有 一 个 页 面 提 取得 到 对 应 的 词汇 集合 B=!{ 大 数据 , 疏 虫 ， 
采集 ,技术 } ,那么 这 两 个 页 面 的 相关 上 度 J(A,B)= 二 3/(8 十 4 一 3) 二 0. 33。 

对 于 式 (7-1) 所 描述 的 向 量 空间 模型 ,可 以 采用 余弦 相似 度 的 计算 公式 ,如 下 : 


Jj(A,B)= (7-3) 


(7-4) 


其 中 ,a,、。， 分 别 是 主题 向 量 和 正文 内 容 向 量 的 第 ; 个 维 
度 的 权重 值 ,n 是 向 量 空间 维 数 。 图 7-3 是 余弦 相关 度 
含义 的 示例 ,这 是 一 个 由 两 个 词汇 组 成 的 向 量 空间 ,a 、。 
分 别 是 主题 向 量 和 页 面 内 容 向 量 。 

对 于 式 (7-2) 所 描述 的 概率 主题 模型 ,最 直接 的 方法 | 
就 是 将 相关 度 用 条 件 概 率 P(d | 工 ) 来 衡量 ,其 中 以 表示 0 
页 面 内 容 。 具 体 的 关于 维度 的 选择 .权重 的 计算 和 条 件 ”中 余 获 相交 度 的 富 广 
概率 计算 将 在 第 11 章 中 介绍 。 

述 余弦 相似 性 或 条 件 概率 的 取 值 都 在 [0,1] 内 ,因此 用 户 在 设 定 相关 阔 值 时 就 
会 比较 方便 ， 


7.4.2 链接 相关 度 估算 


主题 候 虫 目的 在 于 息 取 与 设 定 主 题 相 天 的 页 面 内 容 ,但 是 在 仆 取 过 程 中 需要 考 
虑 其 工作 效率 。 在 主题 爬虫 中 可 能 影响 爬行 效率 的 因 系 有 两 个 方面 ,一 征 内 容 相 天 
度 的 计算 ,该 计算 需要 涉及 内 容 的 处 理 , 例 如 Web 页 面 提 取 、 中 文 词 汇 的 切 分 、 主 题 
模型 的 构建 ,相似 度 计 算 等 ,需要 较 多 的 计算 量 ; 二 是 对 页 面 的 仆 取 ,页 面 的 息 取 涉 太 
网 络 连 接 的 建立 .URL 命令 的 发 送 以 及 Web 页 面 内 容 的 获取 等 ,也 需要 较 多 的 计算 量 。 
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如 果 能 控制 进入 怜 行 任务 列表 的 URL ,使 得 进入 该 任务 列表 的 URL 大 多 是 与 
主题 有 一 定 相 关 的 ,就 能 有 效 地 降低 后 续 对 内 容 处 理 所 需 要 的 计算 量 。 因 此 从 提高 
爬虫 系统 性 能 的 角度 来 说 ,不 能 把 所 有 互联 网 页 面 下 载 下 来 之 后 再 去 通过 内 容 相 关 性 
斋 选 ,而 需要 在 URL 识别 阶段 驶 能 够 判断 东 个 URL 对 应 的 页 面 内 容 是 否 与 主题 相关 。 

在 这 个 阶段 ,由 于 这 时 候 URL 刚 锐 解析 出 来 ,其 对 应 的 Web 页 面 并 没有 被 获 
取 , 所 以 无 法 从 内 容 上 进行 相关 度 的 分 析 。 一 些 可 以 被 利用 的 信息 以 及 它们 对 链接 
相关 度 信 算 的 价值 分 析 说 明 如 下 。 

(1) 超 链接 的 销 文本 : 即 一 个 超 链 接 上 显示 的 文字 。 这 种 文本 信息 一 般 非 常 有 
限 ,但 是 销 文本 中 的 关键 词 在 反映 呐 实 内 容 方面 通 笛 具有 很 强 的 代表 性 。 其 缺点 是 
锁 文 本 一 般 很 短 ,经 过 词汇 提取 之 后 ,通常 需要 进行 一 定 的 词汇 语义 扩展 ,找到 更 多 
可 能 与 主题 相关 的 词汇 ,这 样 可 以 提高 与 已 定义 好 的 主题 的 链接 相关 度 计 算 的 准 
确 性 。 

(2) 超 链 接 周 围 的 销 文 本 : 也 就 是 东 个 超 链接 前 后 一 定 拖 围 区 域内 所 有 销 文本 
构成 的 文本 信息 。 这 种 信息 在 进行 相关 度 舍 算 时 也 具有 一 定 的 参考 价值 ,这 是 由 于 
Web 页 面 的 设计 者 为 了 增加 用 户 体验 度 , 通 篆 会 把 一 些 内 容 上 相似 或 相关 度 比 较 高 
的 超 链 接 放 在 一 起 ,一 般 把 这 种 现象 称 为 超 链接 的 主题 聚集 性 。 如 图 7-4 所 示 ,互联 
网 IT 等 相关 链接 被 组 织 在 一 起 。 设 计 者 可 以 用 周围 的 文字 来 扩展 茶 个 超 链接 的 销 
文本 。 要 使 用 此 类 信息 ,必须 对 HTML 结构 进行 一 定 分 析 ,例如 同属 于 一 个 表格 栏 ， 
否则 不 容 多 确定 超 链 接 的 计算 范围 。 

互联 网 : IT 业界 : 电信 4G 

"| 王 思 聪 投资 成 立 的 理 焦 计划 完成 A 轮 1. 5 人 忆 融 贷 
: | 新 华 网 评 : 由 高 考 作 充 引发 的 虚拟 与 现 洋 之 思 
. | 被 联想 电脑 店员 歧视 主播 她 磺 1. 5 万 元 新 电脑 
“ | 马云 8900 四 元 买 下 法 国 两 座 前 多 酒 庄 


| 成 人 绪 乐 + 运动 ? 全 球 自 个 VR/AR 成 八 展 日 本 举行 
| 奥巴马 真 的 加 了 新 手机 不 能 拍照 还 不 和 DFT 歌 


科学 探索 : 趣 图 


. 夫妻 相 确 有 其 事 : 伴 但 一 方 爱 笑 另 一 方 也 会 出 笑 纹 10:29 
.科学 家 发 现 比 “ 震 比 特 人 “更 古老 的 小 类 人: 可 追溯 至 70 
,基因 检测 最 近 火 上 天 ! 但 是 它 却 无 法 告诉 你 这 7 件 事 09:51 
， 应 对 全 球 变 暖 ! 科学 家 把 二 氧化 碳 注入 岩层 变 成 “五 
.流言 揭秘 : 干 省 水 不 能 喝 4 开水 也 有 保质 期 ?0910 


图 7-4” 超 链接 的 主题 聚集 性 
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(3) 超 链接 结构 信息 : 对 于 爬虫 系统 来 说 ,页 面 超 链 接 是 不 断 际 积 起 来 的 ,因此 
在 爬虫 工作 过 程 中 ,对 于 茶 个 页 面 了 ,可 以 使 用 从 已 经 爬行 的 页 面 中 提取 出 来 的 指 回 
该 页 面 的 超 链 接 来 进行 相关 度 的 估算。 例如 在 图 7-5 中 ,从 页 面 1 开始 进行 客 度 优先 
搜索 扑 行 , 当 解 析出 2 和 4 的 超 链接 后 ,就 可 以 对 页 面 5 的 相关 度 进 行 估算 了 ,而 且 
这 种 合算 会 随 看 及 集 到 的 页 面 的 增多 变 得 更 准确 。 基 于 这 种 链接 绍 构 的 一 般 假设 是 
主题 相关 度 高 的 页 面 通 第 也 会 比较 密集 地 链接 在 一 起 ,因此 需要 在 获取 新 的 页 面 之 
后 对 所 有 页 面 的 主题 相关 度 重 新 评 售 。 

通过 锁 文 本 构造 出 代表 页 面 的 文本 ,对 文本 进行 
处 理 之 后 , 即 可 利用 7.4.1 和 介绍 的 计算 方法 进行 主 
题 相 关上 度 的 计算 。 但 是 ,这 种 方式 获得 的 文本 比较 
少 , 其 代表 页 面 内 容 的 能 力 小 ,因此 只 能 称 作 一 种 


图 7-5 疏 虫 系统 中 超 链 接 的 价值 


7.4.3 页 面 内 容 相 关 度 计算 


内 容 相 关 度 计算 是 在 实际 上 已 经 获得 页 面 内 容 之 后 计算 它 与 主题 的 相关 度 大 
小 ,是 控制 主题 候 虫 信息 效率 的 第 二 个 关口 。 如 果 要 进行 内 容 相 关 度 的 计算 ,需要 有 
两 个 天 键 的 环 市 。 

一 是 页 面 解 析 和 要 能 正确 地 把 页 面 的 正文 提取 出 来 。 由 于 一 个 Web 页 面 通常 
包含 了 很 多 导航 和 条、 广告 等 内 容 和 超 链接 ,而 其 正 页 面 所 要 表达 的 主题 内 容 并 不 会 占 
据 整 个 页 面 , 所 以 为 了 避免 无 关 词 汇 对 后 续 内 容 相 关 度 计算 造成 影响 ,要 求 在 这 个 阶 
段 正 确 地 把 页 面 的 正文 彤 容 提 取出 来 ,所 采用 的 技术 已 在 第 6 章 的 Web 页 面 内 容 提 
取 部 分 进行 了 介绍 。 

二 和 古 对 所 取出 来 的 正文 内 容 进 行 主 题 相 关 度 的 计算 。 如 前 所 述 , 这 种 相关 度 计 
算 与 主题 定义 时 所 采用 的 模型 有 关 。 


7.5 特定 新 闻 主 题 采 集 


下 面 的 例子 ,展示 了 从 新 瀛 新闻 列表 中 抓 取 与 设 定 主 题 相 关 的 页 面 。 息 虫 首 先 
获取 新 闻 列 表 (http://roll. news. sina. com. cn/news/gnxw/gdxwl/index. shtml) , 如 


主题 朴 虫 页 面 采 集 技 术 与 Python 实现 


从 


7-6 所 示 ,然后 提取 列表 中 每 个 新 闻 的 超 链接 ,进入 相应 的 页 面 , 如 图 7-7 所 示 。 


" 进 博 会 门票 网 售 150070 一 张 ? 上海 警方 : 假 的 别 信 (2018 年 11 月 06 日 07:45) 
" 朝 州 人 大 常委 会 原 主 任 驳 灿 峰 再 获 减 刑 八 个 月 (2018 年 10 月 19 日 12:27) 

1 十 宁 起 狂 事 件 调 查 : 部 分 监狱 管理 人 员 非 在 病 十 警 (2018 年 10 月 16 日 21:25) 
”中国 驻 美 大 使 回击 和 白 言 指 考 坦言 不 知 白宫 谁 说 了 算 (2018 年 10 月 16 日 10:45) 
" 扬子 锯 保 护 区 遭 企 业 侵占 当地 官员 曾 称 : 谁 说 不 能 (2018 年 10 月 16 日 08:33) 
" 人民 日 报 钟 轩 理 文章 :贸易 战 阴 挡 不 了 中 国 前 进步 伐 (2018 年 10 月 15 日 06:59) 
"” 瑞 媒 称 中 国 游客 事件 或 由 中 方 故 意 守 演 中 使 馆 驶 厂 (2018 年 09 月 18 日 04:51) 
"台北 捷 运 传 罗 徒 持 刀 刺 人 女子 胸口 被 划 伤 12 厘 米 (2018 年 09 月 17 日 20:54) 
" 滴 滴 恢 复 深 夜 出 行 第 一 夜 : 新 司机 被 刷 考核 得 吐 模 (2018 年 09 月 16 日 05:40) 
"” 北 名 表演 三 林家 牛 旭 去 世 享年 88 宏 [2018 年 09 月 15 日 05:10] 
生机 信和， 相机 秆 全 和 和 人 (2018 年 09 月 12 日 14:19) 


图 7-6 新 闻 列 表 


国人 台 办 : 合 湾 同胞 在 海外 遇 困 难 但 国都 是 译 强 后 牛 


2018 年 09 月 12 日 12:23 ”中 国 新 闻 网 


原 标题 : 国 台 办 : 台湾 同胞 在 海外 歇 到 固 难 祖国 都 是 坚强 后 厦 


中 新 网 9 月 12 日 电 国 台 办 发 言 人 安 峰 山 12 日 就 “日 本 台风 地 震 台 胞 受到 大 陆 驻 外 使 馆 协 助 脱 因 ”一 
事 甫 示 ， 两 岸 同胞 都 是 中 国人 ， 台湾 同胞 在 海外 无 论 什么 地 方 ， 无论 遇 到 什么 困难 ， 祖 国都 是 他 们 坚强 的 
后 让 ， 我 们 都 会 担 供 协助 ， 帮 助 他 们 解决 实际 问题 。 


图 7-7 新 闻 页 面 


在 新 闻 页 面 的 HTML 中 进行 文本 内 容 的 提取 ,这 里 使 用 了 BeautifulSoup 和 
XPath 的 信息 提取 方法 。 在 提取 出 文本 之 后 进行 了 文本 的 切 分 ,获取 每 个 词汇 ,并 进 
行 了 停 用 词 过 滤 ,最 后 以 词汇 出 现 的 次 数 和 词汇 在 每 个 段落 中 出 现 的 情况 来 进行 特 
征 选择 ,最 终 选择 出 10 个 代表 该 页 面 内 容 的 词汇 ,将 这 些 词汇 与 事先 设 定 的 主题 词 
汇 基 于 Jaccard 相似 系数 来 计算 页 面 内 容 与 主题 的 相关 上 度 。 

具体 代码 及 相关 标注 说 明 如 下 。 该 例子 综合 展示 了 Robots 规范 的 使 用 .页面 抓 
取 、 解 析 、 超 链接 提取 、 内 容 提 取 、 词 汇 处 理 等 技术 。 需 要 注意 的 是 ,这 里 利用 了 
gensim. corpora. dictionary 和 jieba 两 个 开源 库 ,此 处 只 涉及 基本 操作 ,更 多 的 使 用 方 
法 和 技术 原理 将 在 第 11 章 介绍 。 
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Prog - 10 - topic - pages. py 

#-—-*— coding: utf -8 一 关 一 

import urllib. robotparser 

import requests 

from bs4 import BeautifulSoup 

import Jieba 

from gensim. corpora. dictionary import Dictionary 
import os 


import re 


# 保存 文件 

def savefile(lfile dir, content, seq): 
file path = file dir + os.sep + str(seq) + ".html' 
f = open(file path, "wb") 
f. write(content. encode("utf -8")) 间 编 码 成 字 节 
ft.closel) 


# 设置 http 头 部 属性 
useragent = 'Mozilla/5.0(Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0' 
http headers = 1 

"User ~ Agent :useragent., 

'Accept': 'text/html' 


# 定义 主题 : 使 用 关键 词 集合 方式 来 定义 
topicwords = {" 网 络 "," 安 全 ", "法案 ", "预警 "," 设 施 ", "互联 网 "} 


website = 'http://roll]. news. sina. com. cn/' 
url = 'http://roll. news. sina. com. cn/news/gnxw/gdxwl/ indexshtm]' 
file dir = 'e:\\xxx' 


rp = urllib. robotparser. RobotFileParser( ) 
rp. set_url(website + "robots. txt") 
rp. read!( ) 


# 确保 Robots 中 的 许可 访问 

if rp. can fetch(useragent, url]l): 
page = requests.get(url, headers = http headers) 
page. encoding = 'gb2312" 
content = page. text 


# 装载 停 用 词 列表 
stoplist = open( 'stopword. txt', 'r', encoding = "utf ~ 8"). readlines() 
stoplist = set(w. strip() for w in stoplist) 


提取 形 如 href = "http://news. sina. com. cn/0/2018 - 11 - 06/doc - thmutuea7351575. 
shtml" 的 字符 串 
ulist = re. findall('href = "http://[a—- z0-9/.\- ]+\.html',content) 
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i=1 


for u in ulist: 


else: 


u= u[6:] 

print(u) 

page = requests.get(base+u, headers = http headers) 
page. encoding = "utf 一 8 

content = page. text 


# 提取 内 容 
bs = BeautifulSoup(content, 'lxm]l') 
ps = bs. select('div# article > p') 
ptext = "" 
doc= [| 
for p in ps: 

p= p.text. strip("\n") 

if pl ="": 
本 三 


# 词汇 切 分 、 过 滤 
for win list(jieba.cut(p,cut all = True)): 
if len(w)> 1 and w not in stoplist: 
d. append(w) 
doc. append( d) 
# print(doc) 


# 特征 选择 ,假设 依据 是 词汇 至 少 出 现 两 次 ,而 且 词 汇 所 在 的 段落 数 / 总 的 段落 数 <= 1.0 
# 选择 符合 这 两 个 条 件 的 前 10 个 词汇 作为 页 面 内 容 的 代表 

dictionary = Dictionary(doc) 

dictionary. filter extremes(no below= 2, no above= 1.0, keep n= 10) 

d= dict(dictionary. Items( )) 

docwords = set(d. values( )) 


# 相 关 度 计算 : topicwords 和 docwords 集合 的 相似 度 
commwords = topicwords. intersection( docwords) 
sim= len(commwords)/(len(topicwords) + len(docwords) - len(commwords)) 


# 如 果 相 似 度 满足 设 定 的 要 求 , 则 认为 主题 相关 ,可 以 保存 到 文件 
if sim> 0.2: 

print( docwords) 

print("sim= ", sim) 


savefile(file dir, content, i) 


1=1I 十 1 


print( ' 不 允许 抓 取 ! ') 


程序 的 执行 结果 如 图 7-8 所 示 , 可 见 过 滤 出 了 主题 相关 的 页 面 。 
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本 ec 


http://news. sina. com. cn/c/nd/2018-09-12/doc-ihiycyfx6699972. shtml 
http://news. sina. com. cn/c/nd/2018-09-12/doc-ihiycyfx6559805. shtml 
http://news. sina. com cn/c/nd/2018-09-12/doc-ihiixzkm7682767. shtml 
http://news. sina. com. cn/o0/2018-09-12/doc-ihiixyeu6466575. shtml 
[法 染 ' ，’ 经 营 *，' 网 络 '，! 营运 ，’ 澳门 "，’ 经 营 者 "，?” 公共; ，? 安 
"建议 '”，’ 网 络 安 全 1] 
si1m= 0. 230169230/6923018 

http://news. sina. com. cn/o/2018-09-12/doc-ihiixyeu6461464. shtml 
http://news. sina. com. cn/o/2018-09-12/doc-ihivycyfx6170035. shtml 
http://news. sina. com. cn/o/2018-09-12/doc-ihiycyfx5700820. shtml 


图 7-8 程序 执行 过 程 和 结果 


什么 是 主题 念 虫 ? 它 主要 使 用 在 哪些 场合 ? 

撞 述 主 题 息 虫 的 技术 框架 ,并 说 出 与 普通 扑 虫 技术 框 染 的 区 别 。 

在 主题 疏 虫 中 有 哪 几 种 方法 可 以 用 来 表示 主题 ? 

在 使 用 词汇 集合 来 描述 主题 时 ,如 何 计算 页 面 内 容 与 主题 的 相关 度 ? 


从 你 学 校 网 站 的 新 闻 列 表 中 抓 取 与 校长 相关 的 页 面 ,请 编写 程序 实现 。 
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- 吉 


Deep Web 疏 虫 与 Python 实现 


针对 互联 网 上 广泛 存在 的 Deep Web ,本章 首先 介绍 了 其 相关 概念 ,并 痢 重 对 
Deep Web 数据 采集 的 技术 避 构 .关键 技术 进行 了 叙述 ,然后 以 图 书信 息 采 集 为 例 介 
绍 Deep Web 数据 采集 的 技术 实现 方法 。 


8.1 相关 概念 


Deep Web 这 一 概念 最 初 由 Dr. Jill Ellsworth 于 1994 年 提出 。Deep Web 是 
Web 中 那些 未 锐 搜 索引 擎 收录 的 页 面 或 站 点 ,也 可 称 为 Invisible Web、Hidden Web， 
与 其 相对 的 是 Surface Web, 指 的 是 静态 页 面 

随 着 互联 网 技术 和 应 用 的 发 展 ,当前 互联 网 与 早期 的 互联 网 已 经 呈现 出 一 些 差 

异 , 尤 其 是 适应 搜索 引擎 和 移动 终端 的 快速 增长 这 两 个 变化 导致 了 当前 Deep Web 
与 其 诞生 之 时 的 定义 或 者 表现 稍 有 差异 。 由 于 搜索 引擎 在 技术 和 业务 推广 之 间 起 到 
了 有 力 的 推动 ,许多 网 站 都 希望 其 网 页 能 被 搜索 引擎 收录 。 相 对 于 动态 页 面 来 说 ,项 
态 页面 由 于 不 需要 处 理 动 态 脚 本 ,更 易于 被 搜索 引擎 处 理 并 收录 。 因 此 网 站 和 硕 望 用 
静态 页 面 来 代替 动态 页 面 , 但 是 这 种 途径 显然 不 可 行 , 因 为 有 很 多 的 数据 仍 需要 保存 
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在 数据 库 系 统 中 ,并 通过 动态 网 页 来 访问 。 为 了 平衡 这 两 方面 的 和 矛盾 ,出 现 了 伪 静 态 
技术 。 通 过 该 技术 ,展现 给 用 户 或 搜索 引擎 的 是 一 个 静态 的 HTML 文件 ,但 是 访问 
该 HTML 文件 时 由 Web 站 点 进行 后 台 的 动态 化 访问 。 通 过 伪 毅 态 技 术 访 问 的 动态 
网 页 能 够 被 搜索 引 警 收录 ,因此 就 不 能 归属 为 Deep Web 了 。 

对 于 互联 网 大 数据 应 用 而 言 , 并 不 关注 Web 页 面 是 Deep Web 还 是 Surface 
Web ,而 更 关注 动态 页 面 所 需要 访问 的 数据 ,这 些 数据 通 笛 保 存在 数据 库 服 务 需 (或 
专门 的 文件 系统 ) 中 ,是 一 种 重要 的 大 数据 源 。 很 多 预订 网 站 .电子 商务 销售 网 站 的 
动态 页 面 访 问 的 数据 都 是 属于 这 种 类 型 。 

数据 库 中 的 数据 由 于 用 户 、 需 求 相 对 明确 ,由 专人 生产 和 维护 信息 ,并 且 难 以 被 
复制 采集 ,所 以 相对 Surface Web 中 的 数据 来 说 其 数据 质量 往往 比较 高 。 但 是 由 于 
其 背后 的 数据 库 由 不 同 的 组 织 或 个 人 开发 维护 ,数据 库 的 结构 和 特性 千差万别 ,不 同 
数据 之 间 的 关联 也 是 错综复杂 ,与 行业 的 业务 流程 息息相关 , 故 难 以 直接 使 用 数据 库 
技术 管理 和 查询 这 些 数据 。 因 此 ,在 进行 互联 网 大 数据 获取 时 无 法 忽视 这 个 庞大 、 高 
质量 的 数据 源 。 

与 一 般 的 动态 网 页 稍 有 区 别 的 是 ,Deep Web 的 页 面 除 了 内 容 动态 生成 之 外 , 往 
往 还 要 有 特定 的 业务 过 程 或 者 状态 机 进行 触发 ,例如 成 功 登录 ,关键 字 组 合 等 ,因此 
与 普通 的 动态 网 页 获取 相 比 ,在 进行 Deep Web 的 数据 采集 时 还 需要 考虑 到 数据 产 
生 的 过 程 .业务 流程 限制 以 及 数据 语义 。 


8.2 Deep Web 的 特征 和 采集 要 求 


一 个 网 页 称 被 为 Deep Web 网 页 应 当 满 足 两 个 条 件 : 一 是 页 面 上 的 数据 存储 于 
数据 库 .数据 文件 等 地 方 , 而 非 直 接 记 录 在 HTML 页 面 文件 中 ; 二 是 为 用 户 提 供 一 
定 的 查询 接口 ,返回 符合 条 件 的 记录 ,并 生成 HTML 页 面 。 

从 整体 上 看 ,Deep Web 数据 通常 以 结构 化 数据 为 主 ,最 常见 的 使 用 场景 是 商品 
查询 。Web 页 面 提供 了 查询 商品 的 各 种 途径 ,一 般 允 许 用 户 通 过 各 种 商品 属性 来 检 
索 商 品 记 录 。 例 如 ,在 图 书 查询 中 可 以 通过 书 名 、 出 版 社 . 出 版 日 期 .作者 等 来 查询 ; 
票务 查询 允许 通过 票 的 面值 .标的 有 效 期 等 属性 进行 查询 。 查 询 结果 也 有 多 种 不 同 
的 展现 方式 ,主要 有 表格 形式 .列表 形式 等 。 如 图 8-1 一 图 8-3 所 示 ,查询 条 件 分 别 是 
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股票 代码 .时 间 范 围 和 交易 日 期 ,输出 的 是 结构 化 数据 ,但 是 在 页 面 中 如 何 组 织 这 
结构 化 数据 可 以 采取 不 同 的 模式 ,Web 页 面 设计 者 也 经 第 会 调整 这 些 结构 化 数据 的 
布局 。 


-日 跌停 股价 创 11 个 月 新 区 OT-17 09:38 | |]( 儿 了 [本 9 


密码 : | 登录 | 免费 注册 | 找 回 密码 


泣 发 很 行 (600000》 | 加 为 自选 


11. 069 今 开 : 11. 83 昨 收 : 11. 78 最 高 11. 89 最 低 : 11 69 振幅 : | TO 
一 和 T6 里 
成 交 量 ; 140948 手 ”成 交 额 : 16601 万 。” 市盈率: 4. 86 市 兆 率 : 0. 89 挽 手 率 : 0. 05% 


2018-04-13 14:59:58 


分 时 | 30 分 种 | BEK | 大 | 月 | mac | 10 复权 浦 尾 银 行 多 空 预 测 
五 档 盘 口 
均衡 从 
忌 五 7T/ 王 ) 
卖 四 (GT!/ 手 ] 


卖 二 (元 / 手 ) 


铺 发 银行 - 60000 


图 8-1 根据 股票 代码 查询 交易 数据 


浦发 银行 人 600000) 每 日 行情 历史 行情 : 每 日 行情 | 每 周 行情 | 每 月 行 


时 间 区 间 : B018-02-07 ”| 至 B018-08-07 ”| 这 询 


<Ule 013 O14 2z01ls <U1b Ql1i a01d 


日 期 : 张 跌幅 开盘 从 节 局 人 草 侦 从 成 交 量 成 芭 先 
2018-04-02 | .0 0. 52; 11. 68 .82 11. 65 277196 手 32566 万 
2018-03-30 机. 0. 03 -281 .63 1.8 .6 232719 手 27098 万 


2018-03-29 .Be .05 0 13 .57 . 45 331088 手 38306 亡 


2013-03-28 4 0 .05 . 443% .53 .75 . 52 229112 于 26612 万 


2018-03-27 .Be .0 0. 09 .7T0 . .56 273328 手 31858 万 


015-03-a6 .b J .10 中 . 8-% 1. .19 .30 364250 手 42223 万 


图 8-2 根据 时 间 范 围 查询 交易 数据 
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名 卖 出 全 略 最 大 的 前 5 名 


华 徐 焉 劳 股 雪 有 了 疏 公 司 丙 填 才 州 六 民 蹈 十 劳 重 业 部 
光 太 证 券 服 份 有 限 公司 福州 胡 东 路 证 券 营 业 部 
湘 财 正 券 股 份 有 限 公司 长 阔 新 民 路 十 券 营业 部 

信 达 正 劳 股份 有 限 公 司 丹东 锦 山 大 街 址 券 营 业 部 

白丁 十 劳 股 全 有限 任 司 北京 北三 环 中 路 证 芳 写 业 部 


尖 信 全 荐 
3. 90 万 元 
3.00 万 元 
0.00 万 元 
7.66 万 元 


2_ 90 万 元 


卖 出 全 家 
1662. 83 万 元 
1059. 58 万 元 
931. 09 万 元 
888. 48 万 元 


464. S54 万 元 


2016-05-10 


兆 卖 出 

1658. 93 万 元 
1058. 58 万 元 
931. 09 万 元 
B80. 82 万 元 
461. 63 万 元 


全 买 人 全 多 最 大 的 前 5 名 


营业 部 买 人 全 哲 
海 才 二 着 股 份 有 了 眼 全 司 成 都 六 拱 折 路 亚 匣 言 业 部 
长 江 证 券 股 份 有 限 公 司 深圳 后 海 海岸 城 证 券 营 北部 
恒 泰 正 券 股份 有 限 公 司 长 春 北京 大 街 亚 着 营业 部 
华泰 证 佐 服 份 有 限 公司 天 津 勤 位 道 正 券 营业 部 
安信 证 券 股 份 有 限 任 司 梅州 新 中 路 证 券 营业 部 


卖 出 金额 滔 头 八 
135. 74 万 元 514, 2875 
86. 36 万 元 
330. 14 万 元 
321. 6 万 元 


-31. 晤 万 元 


650.02 万 元 
369. 63 万 元 263. 45 万 元 
330. 14 万 元 0.00 万 元 
325. 12 万 元 3. 和 4 万 元 


246.62 万 元 276.07 万 元 


图 8-3 根据 交易 日 期 查询 交易 情况 


这 里 以 图 8-2 为 例 说 明 本 章 所 使 用 的 术语 ,主要 有 表单 .表单 输入 项 标签、 表单 
字段 .记录 和 属性 。 

表单 是 指 提供 Deep Web 查询 条 件 输入 的 控件 集合 ,图 8-2 中 的 “时 间 区 间 ”“ 至 ” 
以 及 两 个 输入 框 和 “查询 ”按钮 构成 了 一 个 表单 ,在 HTML 源码 中 由 form 标签 定义 。 
其 中 ,这 两 个 输入 框 称 为 表单 输入 项 ,而 “时 间 区 间 ” 和 “至 ”是 与 这 两 个 输入 项 对 应 的 
标签 。 由 于 在 查询 时 ,输入 项 一 般 是 与 数据 库 表 中 的 相应 字段 进行 匹配 ,因此 ,表单 
答 入 项 也 称 为 表单 字段 。 图 8-2 的 查询 结果 列表 中 每 一 行 称 为 一 个 记录 ,每 个 记录 
由 大 二 个 字段 组 成 。 因 为 这 些 字 段 共同 描述 了 一 个 实体 信息 , 即 股票 在 一 天 的 交易 
信息 ,因此 ,从 知识 库 的 角度 看 ,这些 字段 是 该 实体 的 属性 。 

对 于 Deep Web 数据 采集 来 说 ,通常 需要 考虑 以 下 因素 : 

(1) 对 于 每 个 记录 的 属性 和 属性 值 ,属性 名 称 一 般 是 不 变 的 ,属性 值 随 查询 结果 
的 不 同 而 不 同 。 这 里 的 属性 可 以 理解 为 字段 ,属性 值 束 是 相应 字段 的 具体 内 容 。 
(2) 某 个 属性 在 查询 结果 的 页 面 中 显示 在 哪个 位 置 可 能 是 不 固定 的 ,其 至 会 经 
党 调整 。 

(3) 各 个 查询 条 件 的 输入 值 是 需要 事先 确定 的 ,对 于 图 8-1 来 说 ,所 要 抓 取 的 股 
票 信息 需要 用 户 事先 提供 。 
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8.3 ”深度 网 页 内 容 获 取 技 术 染 构 

Deep Web 数据 库 的 获取 方法 中 的 重点 是 通过 页 面 表单 来 实现 与 后 台 的 数据 交 
互 , 而 表单 数据 处 理 可 以 使 用 图 8-4 来 总 结 表示 ,主要 分 为 3 个 功能 步骤 , 即 寻找 表 
单 、 表 单 处 理 (包括 分 析 、 填 写 与 提交 ) 与 表单 结果 处 理 。 其 总 体 流程 从 左 到 右 执行 ， 
而 在 每 个 环节 又 有 内 部 的 处 理 流程 。 


表单 页 面 获取 


表 蛙 页面 解 析 


领域 本 体 知 识 库 


图 8-4 Deep Web 数据 采集 


前 面 已 经 阐述 了 Deep Web 与 一 般 动态 网 页 的 最 大 区 别 在 于 其 页 面 数 据 的 产生 
与 业务 流程 紧密 相关 ,而 互联 网 上 的 业务 流程 是 用 户 与 站 点 通过 各 种 表单 进行 交互 
的 结果 。 在 Deep Web 数据 采集 过 程 中 通过 这 样 的 交互 获取 到 隐藏 在 后 台数 据 库 之 
中 的 有 效 信息 资源 。 

其 所 需 的 具体 模块 主要 包括 待 采 集 领 域 的 本 体 知识 库 模 块 .表单 疏 取 模块 .表单 
处 理 模块 以 及 结果 分 析 模 块 。 这 些 模块 之 前 以 待 采集 领域 的 本 体 知识 作为 采集 的 知 
识 基 础 ,通过 表单 交互 的 方式 深入 挖掘 领域 的 数据 ,并 更 新 知识 .存储 数据 到 领域 本 
体 知识 库 ， 

下 面 以 某 图 书 查 询 页 面 为 例 来 说 明 Deep Web 数据 采集 技术 架构 的 各 个 主要 
环节 。 


(172) 
CY 本 


Python 疏 虫 大 数据 采集 与 挖掘 - 微 课 视频 版 


8.3.1 领域 本 体 知 识 库 


领域 本 体 主 要 包括 5 个 基本 的 建 模 元 语 (Modeling Primitives), 即 类 、 关 系 、 卫 
数 公理 和 实例 。 其 中 ,类 也 可 以 理解 为 概念 的 集合 ; 关系 则 是 领域 中 各 概念 之 间 的 
关联 关系 ,基本 的 关系 有 kind-of、part-of、instance-of 和 attribute-of 几 种 ; 函数 可 以 
视 为 关系 中 特殊 的 一 种 ,函数 也 可 以 看 作 流 程 的 一 种 固化 表达 ; 公理 是 领域 中 公认 
的 真理 ; 实例 则 是 对 象 。 

以 图 书 领域 为 例 , 可 以 简单 地 对 应 一 些 基 本 概念 以 及 它们 之 间 的 关系 ,例如 存在 
图 书 分 类 、 作 者 编者、 图 书 名 称 、ISBN、 出 版 社 、 出 版 时 间 、 版 次 、 页 数 、 开 本 、 印 次 、 包 
装 . 纸 质 .丛书 .摘要 内容 简 介 .目录 等 基本 概念 ,而 在 机 票 预 订 领 域 ,本 体 概念 的 范 
畴 不 同 。 因 此 在 采集 之 前 需要 对 领域 及 其 中 的 基本 概念 进行 标识 ,并 且 根 据 本 体 的 
建 模 结果 进行 知识 库 构 建 。 

对 于 本 例 来 说 ,涉及 的 知识 库 包 括 书 名 、 作 者 / 译 者 、 关 键 词 、 出 版 社 和 ISBN 的 
相关 表示 方法 ,在 具体 爬虫 实现 中 采用 哪 种 或 哪些 库 取 决 于 数据 采集 任务 。 对 各 个 
概念 可 以 采用 精确 的 模式 ,也 可 以 采用 模糊 表示 方法 。 

精确 表示 方法 需要 将 各 种 可 能 的 值 都 写 出 来 ,例如 所 要 抓 取 的 所 有 图 书 的 书 名 。 
模糊 表示 方法 则 可 以 简化 这 个 罗列 过 程 , 使 用 某 种 模式 来 表达 。 例 如 对 于 ISBN 号 ， 
在 新 版 ISBN 规范 中 国际 标准 书号 的 号 码 由 13 位 数字 组 成 ,并 以 4 个 连接 号 或 4 个 
空格 加 以 分 割 ,每 组 数字 都 有 固定 的 含义 。 因 此 可 以 在 知识 库 中 据 此 来 定义 ISBN 
号 的 组 成 模式 ,而 不 需要 罗列 所 有 的 ISBN 号 。 

对 于 概念 之 间 的 关系 以 及 包含 流程 的 函数 需要 在 厘清 本 体 概念 之 后 进行 模型 构 
建 ,在 不 同 的 Deep Web 采集 中 根据 实际 情况 定义 知识 库 。 在 本 章 的 例子 中 主要 包 
括 字 段 之 间 的 关系 .标签 与 字段 之 间 的 对 应 关系 .字段 填充 的 限制 与 规则 、 表 单 填写 
的 顺 友 规则 每 。 


8.3.2 寻找 表单 


本 体 知识 库 的 构建 描述 了 大 量 的 概念 和 事实 以 及 它们 的 关系 ,但 同时 也 需要 了 
解 领 域内 的 第 见 站 点 以 及 这 些 站 点 的 表单 内 容 , 因 此 人 工 定 义 的 初始 Deep Web 的 
URL 可 以 作为 本 步 又 的 输入 , 放 到 URL 集合 之 中 。 
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通过 疏 虫 采集 URL 集合 中 的 页 面 可 以 得 到 表单 页 面 的 集合 ,同时 也 可 以 通过 
URL 进 一 些 爬 取 其 他 未 被 收集 进来 的 表单 。 在 URL 集合 变 成 表单 集合 之 后 ,首先 
需要 做 的 是 表单 的 清理 与 过 滤 。 和 大 数据 分 析 的 原始 数据 一 样 ,未 被 清理 的 表单 存 
在 诸多 问题 ,主要 是 存在 并 非 Deep Web 的 表单 ,例如 登录 型 表单 等 。 

在 清理 过 滤 这 一 步骤 中 ,可 以 使 用 局 发 式 规则 去 除 不 符合 要 求 的 表单 ,一 些 可 用 
的 规则 如 下 : 

(1) 给 定 一 个 国 值 区 间 ( 可 以 根据 领域 中 常见 的 典型 表单 计算 得 到 ), 如 末 需 要 

写 的 字段 个 数 超出 这 个 区 间 范 围 , 表 单 就 忽略 或 交际, 以 免 采 集 到 并 非 期 望 的 表 
单 , 例 如 一 些 调查 问卷 或 登录 ,注册 表单 等 。 

(2) 对 于 给 定 的 表单 ,如 果 其 中 含有 特定 类 型 的 输入 控件 ,例如 密码 框 、Textarea 
(可 以 排除 问卷 ), 则 忽略 该 表单 。 

(3) 将 表单 输入 项 中 的 每 个 标签 与 本 体 知 识 库 进行 比较 ,如 果 不 匹 配 的 比例 较 
大 ,一 般 也 不 是 该 领域 的 表单 页 面 。 

对 于 符合 规则 1 的 表单 ,根据 规则 还 可 以 进行 剪除 操作 ,主要 目的 是 剪除 其 中 的 
非 必 须 表 单项 等 ,而 勇 除 操作 一 般 需 要 根据 数据 采集 任务 的 目标 以 及 Web 站 点 的 领 
域 属性 等 确定 ,使 得 后 续 表 单 解析 与 填写 的 过 程 能 够 聚焦 在 数据 获取 的 主流 程 之 中 。 


8.3.3 表单 处 理 


表单 处 理 模块 的 技术 要 点 有 两 个 : 一 是 能 够 识别 表单 字段 内 容 ; 另外 一 个 是 能 
够 匹配 所 要 填写 的 表单 字段 , 即 能 够 与 领域 本 体 知识 库 中 对 象 属性 之 间 的 映射 关系 
产生 匹配 。 

Web 站 点 为 了 便于 用 户 使 用 ,在 界面 .表单 元 素 等 交互 上 均 采 取 了 简洁 、 易 懂 的 
模式 ,同时 大 部 分 表单 会 有 对 应 的 文本 标签 .简要 的 说 明 等 信息 与 表单 填写 项 目 进 
匹配 ,可 能 还 会 有 键盘 顺序 自动 化 等 人 性 化 的 提示 、 帮 助 信息 ,因此 表单 识别 可 以 在 
领域 本 体 知 识 库 的 参与 下 进行 。 疏 虫 对 表单 项 的 标签 .HTML 编码 中 的 标签 进行 模 
式 识别 ,一 旦 发 现 与 库 中 的 概念 相同 或 者 接近 的 , 则 可 以 先 与 概念 关联 起 来 。 具 体 的 
识别 过 程 可 以 使 用 启发 式 规则 ,规则 依赖 于 当前 中 英文 的 Web 表单 。 按 照 从 上 往 
下 、 从 左 往 右 的 阅读 习惯 ,可 以 在 表单 字段 域 的 左边 或 者 上 面 获得 提示 信息 和 字段 标 
签 ,当然 也 会 存在 字段 标签 即 字段 域 默 认 内 容 的 情况 。 
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表单 内 容 填写 则 是 在 前 述 关 联 的 基础 之 上 进行 的 。 在 填写 的 时 候 , 可 以 按照 字 
段 与 领域 本 体 知 识 库 中 概念 的 相似 程度 进行 匹配 ,将 本 体 知 识 库 中 的 属性 值 作为 表 
项 值 。 由 于 表单 项 一 般 不 会 只 有 一 个 ,所 以 在 填写 表单 时 应 当 考 虑 优先 选择 哪个 表 
持 项 进行 填写 。 这 里 需要 考虑 领域 中 知识 的 分 类 体系 ,主要 目的 是 要 确保 提交 的 表 
单 查询 次 数 尽 量 少 , 并 且 碍 询 到 的 数据 记录 之 间 避 免 重复 。 例 如 对 于 图 书 领 域 , 属 性 
有 出 版 社 、ISBN、 壮 者 、 出 版 日 期 等 ,显然 在 这 些 属 性 中 出 版 社 是 最 有 效 的 属性 ,通过 
知识 库 中 保存 的 有 效 出 版 社 列表 逐个 提交 来 达到 有 歼 碍 询 的 目的 。 


8.3.4 结果 处 理 


HTTP 的 返回 内 容 需 要 进行 格式 .结构 .关键 字 校 验 , 如 条 当前 所 区 的 表单 预期 
结果 是 一 个 包含 搜索 结果 的 页 面 ,那么 包含 有 登录 信息 的 表单 页 面 . 不 包含 有 预期 的 
结果 关键 字 的 页 面 \ 包 含 无 结果 等 信息 的 页 面 均 可 认为 是 当前 提交 表单 错误 的 表现 。 

如 果 当 前 表单 提交 的 期 望 结果 是 JSON 或 XML, 那么 其 返回 数据 的 格式 和 内 容 
均 需 要 进行 校 验 , 以 免 采集 到 的 是 无 效 的 信息 。 对 于 待 采集 目标 需要 通过 较为 复杂 
的 多 步 流程 才能 获取 的 情况 ,在 每 一 步 又 中 与 业务 相关 知识 进行 比较 分 析 , 以 免 因 某 
步骤 表单 错误 导致 后 续 采 集 失 败 或 获取 的 数据 并 非 期 望 值 。 在 对 返回 的 结果 进行 月 
动 提取 时 ,需要 将 每 个 记录 的 内 容 与 字段 对 应 起 来 。 这 里 可 能 存在 以 下 处 理 情况 : 

(1) 记录 集 的 样式 判断 ,因为 Web 页 面 上 记录 集 可 以 按照 槛 回 、. 纵 回来 组 织 , 需 
要 确定 字段 名 称 显示 在 第 一 行 或 第 一 列 。 

(2) 结果 集中 的 字段 名 称 与 表单 项 可 能 不 完全 一 致 ,也 可 能 出 现 新 的 字段 名 称 ， 
震 要 对 字段 标签 进行 再 分 析 。 


8.4 图 书信 息 采 集 


视频 讲解 

在 Deep Web 数据 采集 中 一 般 通 过 输入 相关 条 件 进 行 查询 ,提交 表单 后 才能 从 

返回 结果 中 得 到 对 应 的 信息 。 在 数据 爬 取 的 过 程 中 ,提交 表单 多 用 于 实现 登录 验证 

和 搜索 查询 。 因 为 提交 表单 实际 上 可 以 视 为 用 户 以 GET 或 POST 方式 提交 HTTP 

请 求 ,所 以 无 论 网 站 采用 了 哪 种 提交 表单 的 方式 ,都 可 以 继续 使 用 之 前 介绍 过 的 
requests 模块 来 实现 这 个 操作 。 
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这 里 以 当当 网 书籍 搜索 页 面 (http:y/y/search. dangdang. com/advsearch) 作 为 示 
例 , 如 图 8-5 所 示 ,下面 介绍 通过 出 版 社 名 称 查 询 该 出 版 社 出 厂 过 的 书籍 的 方法 。 


全 按 书 单 搜索 


请 选择 介质 。 国 纸 书 


基本 条 件 书 名 


作者 / 译 者 


天 竺 辣 
出 版 社 


lS5BN 


相应 的 HTML 源 代 人 码 如 图 8-6 所 示 。 先 观察 一 下 要 填写 的 表单 ,由 于 选择 查询 
出 版 社 , 所 以 要 填写 的 只 有 出 版 社 的 名 字 , 只 要 定位 到 出 版 社 对 应 的 < input > 标签 即 


《wy classe"“ bor boxg2 CLeartIx > 
<hd> 基 本 杀 件 <hd> 
“wy class=" detail conditiom > 
<labelY<spav 书 名 < span}<input type="text” name="keyl” id="book keyl” 
class=" checkirput” /Yi class=" detail error” id" book kevl error >»</i></label> 
《label》<spamv 作 者 / 译 者 </spary irput type="text” name="key2”i 生 "book_key2” 
class=" checkirput” /1 class=" detail error” id=" book key? error’ YY</i></label> 
“label>“spar 关键 间 必 span><input type="text” name="key iF"book key” class=" checkirput 
fed class-" detail error id" book key error’ >»/i>»</label» 
《label》<spatvy 出 版 社 d span> input type="text” rame="key3” id="book key3” 
class=" checkirput” /><1 class=" detail error” id=" "book key3 error’ ></i></label> 
“label>»<spary ISEN</ span»<input type= text” mame= keyd” id= book keyd class= checkirput 
/1 class detail error” i 和" book keyd _ error /I> label> 
</div> 
</ div> 


图 8-6 对 应 的 HTML 源 代 码 


除了 通过 name 二 "key3" 和 下 接 定 位 < input > 标签 外 ,还 可 以 通过 匹配 标签 内 文本 
的 方式 来 寻找 所 需要 出 版 社 对 应 的 < input > 标签 ,相对 于 前 者 ,这 样 做 能 够 适应 查询 
条 件 排 列 顺序 或 标签 的 name 属性 发 生变 化 的 场景 ,使 得 程序 具有 更 好 的 适应 能 力 。 
以 下 自动 定位 出 版 社 输入 标签 的 方法 : 


# 定位 < input > 标签 
input_ tag name = 
conditions = soup. select('.box2 > .detail condition > label') 
print( ' 共 找到 sd 项 基本 条 件 , 正 在 寻找 input 标签 ' 当 len(conditions)) 


for item in conditions: 


th 
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text = item. select('span')[0]. string 

if text == ' 出 版 社 ': 
input tag name = item. select('input')[0].get( 'name') 
print(' 已 经 找到 input 标签 ,name:'，input tag name) 


现在 已 经 定位 到 需要 输入 内 容 的 <input > 标签 ,再 来 看 一 下 要 提交 的 表单 本 号 的 


# 图 书 查 询 表 单 


<form id= "forml” method= "GET” action = 


mr er 


name = "forml"> 


</form> 


其 中 ,method 二 "GET" 表 明 这 个 表单 使 用 GET 方式 提交 。 这 里 简单 进行 说 明 ,提交 
表单 后 实际 上 有 两 种 方法 将 信息 从 浏览 需 传 送 到 Web 服务 天 。 

(1) 通过 URL: 对 应 GET 方式 。 

(2) 通过 HTTP Request 的 body: 对 应 POST 方式 。 

GET 提交 表单 与 POST 提交 表单 有 一 个 很 大 的 不 同 , 即 GET 提交 表单 会 将 表 
单 内 的 数据 转化 为 URL 参数 进行 提交 ,这 就 使 得 在 提交 表单 后 浏览 锅 内 的 URL 会 
显示 表单 的 name/value 值 : 


# 提交 前 

http://search. dangdang. com/advsearch 

# 填写 “新 星 出 版 社 ” 并 提交 表单 后 

http://search. dangdang. com/? medium = 0l&key3 = % DO% C2% DO%S C7% B3%S F6% BO% EG6% C9 
PE7&category_path= 01.00.00.00.00.00 


这 其 中 ,URL 中 key3 的 值 就 是 对 “新 星 出 版 社 ” 编 侣 后 的 结果 。 

掌握 了 这 个 特点 ,那么 现在 就 可 以 将 操作 简化 为 两 步 : 

(1) 根据 表单 参数 构造 URL。 

(2) 采集 信息 。 

在 具体 实现 上 ,设计 了 四 个 主要 孔 数 ,分 别 完成 如 下 功能 。 

(1) read_list: 读 取出 版 社 列表 。 出 版 社 列表 存储 于 文本 文件 中 ,属于 一 种 领域 
知识 。 

(2) build_form: 根据 出 版 社 名 称 构造 URL。 在 这 个 过 程 中 进行 表单 输入 项 的 


目 动 匹配 ,完成 标签 匹配 .抽取 、 表 项 填写 , 即 实 现 图 8-4 中 “表单 处 理 ” 的 功能 。 
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(3) get_info: 发 送 URL 请 求 到 Web 服务 融 , 解 机 返回 结果 ,实现 Deep Web 疏 
虫 的 “结果 处 理 ? 功 能 。 为 了 增加 怜 虫 采集 的 适应 能 力 , 可 以 进一步 对 结果 的 展示 形 
式 进 行 目 动 判断 ,这 样 不 会 因为 网 站 修改 输出 格式 而 导致 信息 抽取 失效 。 

(4) save_info: 将 采集 到 的 图 书信 息 保 存 到 文本 文件 中 。 

按照 这 个 思路 ,最 终 完 整 的 样 例 程序 如 下 : 


Prog - 11 -~- book - info. py 

本 -* 一 coding: utf 一 8 一 关 一 
import requests 

from bs4 import BeautifulSoup 
import traceback 

import os 


import urllib 


# 读 取出 版 社 列表 
def read list(txt path): 
press list = [] 
f = open(txt path, 'r') 
for line in f. readlines( ) : 
press_list.append(line. strip( '\n')) 
return press list 


# 定位 input 标签 ,拼接 URL 
def build forml(press name): 
header = {'User - Mgent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like 
Gecko'} 
res = requests. get('http://search. dangdang. com/advsearch', headers = header) 
res. encoding = 'gb2312" 
soup = BeautifulSoup(res. text, 'htm]. parser') 
# 定位 < input > 标签 
input tag name = "" 
conditions = soup. select('.box2> .detail condition > label') 
print( ' 共 找到 sd 项 基本 条 件 , 正 在 寻找 input 标签 ' 和 len(conditions)) 
for item in conditions: 
text = item. select('span')[0]. string 
if text == ' 出 版 社 ': 
input tag name = item. select('input')[0].get( ‘name') 
print(' 已 经 找到 input 标签 ,name:'，input tag name) 
# 拼接 URL 
keyword = {'medium': '01°", 
input tag name: press name. encode( 'gb2312'), 
'category path': '01.00.00.00.00.00', 
'sort type': 'sort pubdate desc' 
| 
url = 'http://search. dangdang. com/?' 


上 
加 
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Url += urllib. parse. urlencodel( keyword) 
printt ' 人 口 地 址 :机 8 $% url) 
return url 


# 抓 取信 息 ,参考 图 8-7 所 示 的 图 书记 录 页 面 的 HTML 源 代码 中 的 相关 字段 标签 
def get infolentry url): 

header = {'User - AMgent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like 
Gecko'} 

res = requests. get(entry url, headers = header) 

res. encoding = 'gb2312" 

# 这 里 用 lxml 解析 会 出 现 内 容 缺 失 

soup = BeautifulSoup(res. text, 'html]l. parser') 

# 获取 页 数 

page num = int(soup. select('.data > span')[1]. text. strip('/')) 

print(' 共 名 d 页 待 抓 取 , 这 里 只 测试 采集 1 页 ' % page_num) 

page num = 1 # 这 里 只 测试 抓 1 页 


page now = '&page index=" 
井 书 名 价格 出 版 日 期 评论 数量 
books title = [|] 
books price = [|] 
books date = [|] 
books comment = [|] 
for i in range(1, page num+ 1): 
now url = entry url + page now + str(i) 
print(' 正 在 获取 第 Gd 页 , URL: %%s' % (i, now url)) 
res = requests.get(now url, headers = header) 
soup = BeautifulSoup(res. text, 'htm]l. parser') 
# 获取 书 名 
tmp_books title = soup. select( 'ul.bigimg > li[lddt— pit] > a') 
for book in tmp_books title: 
books title. append(book. get( 'title')) 
# 获取 价格 
tmp books price = soup. select('ul.bigimg > li[ddt— pit] > p.price > span. search 
now price') 
for book in tmp books price: 
books price. append( book. text) 
# 获取 评论 数量 
tmp books comment = soup. select('ul.bigimg > li[ddt— pit] > p. search star line > a') 
for book in tmp_books comment: 
books comment. append(book. text) 
# 获取 出 版 日 期 
tmp_ books date = soup. select('ul.bigimg > li[ddt— pit] > p. search book author > 
span') 
for book in tmp books date[1::3]: 
books date. append( book. text[2:]) 
books dict = {'title': books title, 'price': books price, 'date': books date, 'comment': 
books comment} 
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return books dict 


# 保存 数据 
def save info(file dir, press name, books dict): 
res = "" 
Lry: 
for i in range(len(books dict|[ 'title'])): 
Pes += Natr(iT1Y FT "+ "Pe "4 books dict[ Eitle [lil T mi" 
"价格:' + books dict[ 'price'][i] + rn 十 
出 服 日 期 一 + books dict[ "date'][i] + "\r\n'+ 
评论 数量 :' + books dict[ 'comment'][i] + "\r\n' + 
\r\n' 
) 
except Exception as e: 
print(' 保 存 出 错 ') 
print(e) 
traceback. print exc!() 
finally: 
file path = file dir + os.sep + press name + '.txt' 
f = open(file path, "wb") 
f.write(res. encode("utf— 8")) 
f.close() 


return 


井 人 口 
def start spider(pPress path, saved file dir) : 
井 获取 出 版 社 列表 
press list = read list(press path) 
for press_name in press_ list: 
Pein 二 开始 抓 取 $s ------'% press_name) 
press_page url = build form(press_ name) 
books dict = get info(press page url) 
save_infol(l saved file dir, press name, books dict) 
print( '------- 出 版 社 : %s 抓 取 完毕 -------'% press_nanme) 


return 


if name == " main '": 
# 出 版 社 名 列表 所 在 文件 路 径 
press txt path = r'press. txt' 
井 抓 取信 息 保 存 路 径 
saved file dir = r'E:\xxx' 
# 局 动 


start spider(press txt path, saved file dir) 


样 例 程序 首先 读 取 待 查询 的 出 版 社 列 ; 


,对 每 一 个 得 查询 的 出 版 社 名 称 分 别 根 


表单 参数 构造 URL, 然 后 抓 取 数 据 。 执 行 过 程 如 图 8-8 所 示 。 


IF 
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“<div clas con shoplist” ddtt-are 王 昌 003212 人 0 + 一 epose= om mane=Tmedn0032 pidn +12840 <div i 赴 "search_ mature re”dd name=" 普 
通商 品 区 域 "> 
<ul class= bieime id="component 0 0 Fl2"> 
“1i dd -pit="1” class=" linel” i "p25137790"> 
<a title<” 活 着 【2017 年 新 版 ) ” ddclick=" act=rnormalResult_picturepos=251 7790_0_ | pop” class= pic” name=" itemlist— 

picture” dd name=“ 单 蝇 图 片 ”href="http://product, dangdang, com 25137790,html” target=" blank” ><img 
SF htpi ine ddimg crvyTA2T 26137790-1 hb 1.jpg” 红 t=” 活 着 (2017 年 新 版 ，” /< 二 class= nams”rname= title”>》*a +itls=” 活 着 

¢2017 年 新 版 ;中国 作家 之 一 ， 届 的 作品 成 了 当代 中 国 的 典范 。 世 界 华 交 “ 亲 心 广 学 奖 ”， 入 选 香 潜 必 征 洲 周刊 办 评选 的 “20 世纪 中 充 小 倍 百年 百 强 ”等 ” 
href="http://product. daredang.cumv25137790. htmL”ddclicl ”act=rnormalResult titlehpos-25137190_0_1_p” rame=" itemlist-title” dd_name=“ 单 
品 标题 ”target=” blank” 》 活 着 《2017 年 新 版 》 中 国 作家 之 一 ， 他 的 作品 成 了 当代 中 国 的 奥 范 。 世 界 华 文 “冰心 文学 奖 ”， 入 造 香港 改 亚 洲 周 刊 % 评选 
的 “20 世 纪 中 六 小 说 百年 百 强 ”等 ap ca 于 "det 了 1” > 十 华 是 荡 国 当代 著名 作家 ， 也 是 理 声 国际 的 小 说 家 ， 他 的 作品 享 敬 世界 ， 曾 散人 妇 达 国 内 外 
蜂 碳 。 其 中 长 篇 小 襄 刀 活着 闪 用 独特 的 囊 壕 方式 揭示 了 在 围 壤 中 求生 的 理念 ， 展现 了 生命 的 奖 强 与 乐观 。 该 小 说 现 已 有 近 50 个 版 本 在 全 球 近 40 个 国家 和 
地 区 出 版 ， 并 有 数 种 少数 民族 净 字 版 ， 以 及 盲文 瞩 在 我 国 出 版 * 自 2008 年 在 作家 出 版 社 出 版 以 来 ， 数 次 再 版 ， 加 印 100 夺 次 ， 痪 今 发 行 量 道 700 万 册 >。 </p> 
Dp clasee "price” » span clase=" search now price” 六 ven.: 26.60¢/spart a class=" search diecount”style= "text-decoration none:; "> 定价 : </ay 
《Da Class=" search pre price” ven:28. D0 spany spam class=" search discoumt nbap: (9. 5 折 ) /spar a 
href="http: /product. dare dang. com’ 1 900574033. html 
ddclick=act=normalResult FBookPriceépos=1900574033 0 iact=didclicktemplateépos=25137790 0 1 p class="search_e_price”dd name=" 单 品 电 子 
书 ”target=”blank ><spatw 电 子 书 : 《spary ivyen:d. 99diDVardYpy<div class=" lable label”»span class="new lable” y=" "> spany /div yp 
class= search star_ lime »<sman class=" search star black »spa style= mdth: dW. 2 sparv Y span>a 
href="http: /product, dare dane, oom 25137790, Ftm poirt=commert poirt” tareet=” blark” rname=" itemlist-review dd name=" 单 品 评 记 ” 
class=" search commernt rm ddclicle"act=click review count&poE25137790 0 1 p595973 杀 评论 全 pyYspan 5 二 区 tag bor yd spanp 
class=" search book athor <spav a href= http: /search. danedaneg. com ec 人 华 kmediunm=0lhcategoryr path=01, 00.00. 00.00, 00” 
name=’ itemlist-author”dd_name=' 单 品 作者 ”+itle=' 余华 ' 3 余华 spanyiapan > /2012-08-01spanyispan> /a 
href= http:// search. danedang. com 业 ey=kkev3=%DTNE WWBOD BIE 的 BO 和 E 的 CNE TmediumDlicategeory pathedl. 00. 00.00, 0.00 name= 下 chs 
dd name=” 单 品 出 版 社 ”+itle=’ 作家 出 版 社 ' > 作家 出 版 社 人 ayxy7sparydiw class= shop buttorm Yip class="botton D Ya class=’ search btn cart ” 
miane= Buy” 员 _name= 加 入 网 物 车 ”href=’ javascript: hddToShoppineCart(25137790)” didclick=’ act=nommalReault_addToCartépos=25137790 0 1_p > 
加 入 网 物 车 《ayta class’ search btn cart” tareet=” blarnk”name= ebook buy button” 册 mame 网 买 电子 书 * 
href=’ http://product, dane darns, com/ 1900574033. 了 tt 和” ddclickact=nomalResult_buyEBoolkpo=25137790_0_1_p > 网 买 电子 书 愉 们 <a 
class=” search btr collect” rame= collect” dd rame= 加 上 收藏 ”id lcase25137790” href=" javrascript: widt0):” rname=" Sc” 
ddclick=" act=normalReault farorkpos=25137790 0 1_p > 收 藏 5ayec 和 Cdivwy < iy 


图 8-7 图 书记 录 页 面 的 HTML 源 代 码 


ar Er 


一 开始 抓 取 清华 大 学 出 版 社 一 一- 
共 找到 5 项 基本 条 件 ， 正在 寻找 input 标 | 组 

已 经 找到 input 标 签 ，name: key3 
入 口 地 址 :http://search. dangdang. com/?medium=0l&key3=%C7%E5%BB%/ 
00. O00&sort type= SO desc 


共 100 页 待 抓 取 ， 这 里 只 测试 来 集 1 页 
正在 获取 第 1 页 ,URL:http: ee dangdang. com/ ?medium=01 上 kev3=%( 
00. 00. 00. 1 版 00&sort type=sort pubdate desc&page_ 1ndex=] 


-一 出 版 社 : 清华 大 学 出 版 社 抓 取 完 华 一 -一 


图 8-8 程序 执行 过 程 


1. 什么 是 Deep Web? 它 与 普通 的 Web 页 面 有 什么 差异 ? 

2. 简 述 Deep Web 疏 虫 的 技术 体系 架构 。 

3. 什么 是 领域 本 体 知识 库 ? 

4. 编写 程序 实现 一 个 Deep Web 信息 采集 ,可 以 是 天 气 信息 ,股票 信息 等 。 


第 外 章 
S: 


微 博 信息 TO 采集 集 三 SP ython 实 现 


微 博 上 取 集 了 众多 用 户 ,涉及 各 个 行业 ,每 天 产生 大 量 的 信息 ,通过 用 户 之 间 的 
天 注 等 交互 行为 产生 了 社交 网 络 。 这 些 信息 对 于 产品 彰 销 商情 发 现 . 社 团 分 析 、 僵 
情 监 测 等 应 用 具有 很 高 的 价值 ,因此 微 博 信息 成 为 互联 网 大 数据 的 重要 组 成 部 分 ,其 
采集 技术 引起 了 人 们 的 广泛 关注 。 本 章 主 要 介绍 微 博 信息 采集 的 一 般 方法 ,以 新 浪 
微 博 为 例 , 对 基于 API 方 式 和 疏 虫 方式 的 采集 方法 进行 介绍 。 


9.1 微 博 信息 采集 方法 概述 


目前 ,常见 的 SNS 平台 的 信息 采集 途径 主要 有 两 种 , 即 通过 平台 提供 的 开放 
API 获取 数据 和 通过 疏 虫 方式 采集 数据 。 

微 博 API 是 微 博 官方 开放 的 一 组 程序 调用 接口 ,通过 这 些 API 能 够 获得 微 博 的 
博文 .用户 信 息 及 用 户 关 系 信息 等 数据 。 其 使 用 非常 方便 ,但 是 在 非 商 业 授 权 下 有 和 较 
大 的 使 用 限制 ,能 够 获取 的 数据 量 有 限 。 在 商业 授权 下 , 则 需要 购买 相应 的 服务 。 

过 爬虫 方式 采集 数据 的 方法 又 可 以 分 为 两 种 , 即 通过 模拟 用 户 行为 进行 页 面 
分 析 与 数据 采集 .通过 模拟 移动 终端 客户 端 进行 数据 采集 。 


和 
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通过 平台 开放 API 获取 数据 的 方式 与 爬虫 方式 的 主要 区 别 在 于 , 它 需 要 注册 和 平 
侣 开发 者 喘 份 。 在 获取 数据 前 使 用 平台 约定 的 方式 进行 刁 份 认证 ,例如 新 浪 微 博 开 
放 平 人 台 使 用 的 认证 方式 为 OAuth。 疏 虫 方式 本 质 上 是 模拟 终端 或 者 用 户 的 方式 , 主 
要 思路 是 通过 平台 公开 的 页 面 编码 内 容 进 行 请 求 命 令 的 构造 ,并 对 返回 的 数据 进行 
分 析 和 提取 ,具体 方法 与 前 和 面 第 4、5、6 章 介 绍 的 方法 类 似 。 因 此 ,本 章 主 要 以 微 博 
API 方 式 为 主 , 介 绍 相 关 的 基本 原理 和 Python 实现 方法 。 


9. 2 ” 微 博 开放 平台 授权 与 测试 


视频 讲解 

通过 调用 微 博 开放 接口 API 可 以 实现 很 多 功能 ,例如 发 微 博 .获取 用 户 基本 信 
县 、. 获 取 微 博 内 容 等 。 但 是 在 调用 之 前 需要 事先 获取 用 户 吴 份 认证 ,这 里 指 在 开放 平 
人 台 上 的 认证 ,而 非 普 通用 户 登 录 微 博时 的 认证 。 

目前 ,第 博 开放 平台 用 户 身 份 鉴 权 主要 采用 OAuth 2.0 认证 方式 ,平台 授权 的 最 
终结 果 是 获得 访问 令 牌 (access_token)。 使 用 该 令 牌 和 用 户 刁 份 Cuid) 就 可 以 在 
Pvthon 程序 中 调用 API, 实 现 微 博 信息 的 采集 。 

获取 access_token 并 不 是 一 件 很 容易 的 事 , 对 于 新 银 微 博 , 具 体 流 程 如 下 : 

(1) 创建 微 博 用 户 , 并 登录 微 博 (weibo. com ) 。 

(2) 进入 “ 微 博 接 口 测试 工具 ”(http;//open. weibo. com/tools/console) ,如果 还 
没有 创建 应 用 , 则 根据 页 面 提示 创建 一 个 应 用 ; 如 果 已 经 有 应 用 , 则 转 步骤 (4)。 

可 以 创建 的 微 博 应 用 有 移动 应 用 、 网 站 接 入 到 微 博 、 无 线 游戏 以 及 网 页 类 型 应 
用 、 浏 览 带 插件 或 客户 端 程 厅 。 这 里 以 选择 客户 端 程 厅 类 型 为 例 , 输 入 和 选择 应 用 的 
其 他 信息 ,如 图 9-1 所 示 。 

(3) 创建 成 功 后 ,页 面 跳 转 到 如 图 9-2 所 示 的 应 用 控制 台 。 

在 OAuth 2.0 授权 设置 中 填写 “授权 回调 页 ”为 “https://api. weibo. com/ 
oauth2/ default. html”。 当 微 博 用 户 授权 该 应 用 后 ,开放 平台 会 回调 这 个 地 址 。 如 果 
应 用 绑 定 了 域名 ,该 域名 下 的 回调 页 地 址 都 有 效 .。“ 取 消 授 权 回 调 页 ?可 不 必 填 写 。 

(4) 在 “ 微 博 接口 测试 工具 ”中 ,可 以 看 到 如 图 9-3 所 示 的 API 测试 工具 页 面 。 单 
击 “ 获 取 Access Token” 按 钮 可 以 获得 该 应 用 的 令 有 牌 , 即 可 以 用 在 Python 程序 中 , 具 
体 使 用 见 后 面 的 例子 。 
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首页 > 应 用 开 上 友 > 创建 新 应 用 


创建 新 应 用 


应 用 名 称 : | 客户 诗 采 集 应 用 1 


应 用 分 类 : | 


应 用 平台 : 因 Windows 国 Mac 国 Linux 
国 Other 
呈 我 已 阅读 并 接受 《 微 博 开 发 者 协议 》 


申请 SAE 应 用 托管 服务 


图 9-1 创建 一 个 应 用 


窜 户 端 采 焦 应 .… 
DAuth2.0 授权 设置 


aa 
名 ee 授权 回调 页 ， 
【应 用 信息 取消 播 权 回 调 页 ， 


园 基本 信息 
愤 ” 高 级 信息 


安全 设置 
加 测试 信息 应 用 的 服务 下 地 址 ， 


数据 统计 


宣 置 App Secret 


局 接口 管理 可 
2279cbfdcd4f03e59dc0271cf1903f8e | 重 轩 知 示 App Secret 于 ， 吕 局 主 百丈 欣 ， 员 
Es pp Secrat 将 必 讼 


图 管理 应 用 


四 合作 接口 


图 9-2 ”应 用 控制 台 


同时 ,在 图 9-3 的 左边 可 以 看 到 "API 分 类 ”API 名 称 ” 以 及 “API 参数 "等 ,通过 
这 些 选 项 和 参数 的 输入 可 以 进行 微 博 API 的 测试 ; 右边 则 显示 相应 的 请 求 和 返回 的 
内 容 。 例 如 ,图 中 展示 了 获取 微 博 用 户 信息 的 API, 其 对 应 的 API 是 “users/show”， 
相应 的 API 参数 要 查阅 微 博 API 文档 。 这 里 使 用 用 户 的 上 昵称 (screen_name) 来 获取 
用 户 信 息 , 单 击 “ 调 用 接口 ”按钮 后 可 以 在 窗口 的 右边 看 到 请 求 的 URL 参数 以 及 返 
回 的 JSON 数据 。 

在 获得 Access Token 之 后 就 可 以 进入 下 一 个 环节 了 。 
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请 求 方式 : get 
请 求 URL : htitps://api.weibo.com/2/usersishow json 
200cDGihHauUupTPCE03bfiye27DBkF 请 求 参 数 ; 
Streen_ name=%EAW%BAWI2WmESWH1MAmETWBDWIWE MAAWATWESGHISWBIWESHEDMAEINE 


AcCESS TIONeN: 


API 分 类 :| 用 户 普通 该 取 接 口 
提 回 的 内 容 : 


API 名 称 :| users/show 
获取 方式 : 加 GET 局 POST 
"本 ”7059060320， 
上 P[ 玄 档 : 点 击 获 职 立 档 "dstr" “T7059060320" 
"class™ 1, 
APlI 佑 到 "streen_name” “百联 网 大 数据 IntBigData” 
Tame” " 昌 认 网 大 数据 IntBigData”, 
streen_nam : | 瑟 联 网 大 数据 IntBic "province™ "31" 
"city": "10 
"cationm "上海 杨浦 区 ， 
"description" "专注 互联 网 大 数据 与 安全 技术 ” 
"Ur ”， 
"profile image Url 


图 9-3 微 博 接口 测试 工具 
需要 注意 access_token 的 过 期 问题 。access_token 根据 开发 者 的 应 用 的 级 别 有 
不 同 的 有 效 期 ,一 般 是 儿 周 时 间 。 失 效 后 程序 驶 不 能 通过 该 access_token 调用 API 
来 正常 获取 数据 了 ,这 时 需要 重新 获取 新 的 access_token。 具 体 方法 也 很 简单 ,进入 
图 9-3 的 微 博 接 口 测 试 工具 , 单 击 “ 获 取 Access Token” 按 钮 重新 获得 即 可 。 


9.3 在 Python 中 调用 微 博 API 采集 数据 


视频 讲 


9.3.1 流程 介绍 


使 用 微 博 API 进行 微 博 信息 获取 的 基本 流程 如 图 9-4 所 示 。 在 该 流程 中 ,前 先 
使 用 申请 到 的 Access Token 通过 开放 平台 的 认证 接口 进行 OAuth 认证 ,认证 通过 
后 , 即 可 通过 微 博 所 提供 的 接口 获得 各 种 数据 ,例如 用 户 数据 .博文 .关注 信息 等 。 
在 微 博 OAuth 2.0 实现 中 ,授权 服务 器 在 接收 到 验证 授权 请 求 时 会 按照 OAuth 2.0 
协议 对 本 请 求 的 请 求 头 部 .请求 参 数 进 行 检 验 , 右 请 求 不 合法 或 验证 未 通过 ,授权 服 
务 需 会 返回 相应 的 错误 信息 ,包含 以 下 几 个 参数 。 
。 error: 错误 码 。 
。 error_code: 错误 的 内 部 编号 。 
。 etrror_description: 错误 的 描述 信息 。 
。 error_url: 可 读 的 网 页 URI, 市 有 关于 错误 的 信息 ,用 于 为 终端 用 户 提 供与 错 
误 有 关 的 额外 信息 。 
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(1) 调用 OAuth 认 证 


(2) 返回 认证 结果 


(3) 调用 接口 ， 发 送 请 求 用 户 列表 


(4) 返回 用 户 列 表 


(6) 准备 数据 


(7) 获取 数据 


(8) 返回 数据 


(9) 解析 并 保存 数据 


图 9-4 通过 新 浪 开 放 API 获取 微 博 数据 


如 果 通 过 认证 , 则 可 以 调用 各 种 API。 返 回 的 数据 按照 JSON 格式 进行 封 瀛 ,最 
后 根据 API 文档 的 说 明 提 取 所 需要 的 内 容 。 


9.3.2 人 微 博 API 及 使 用 方法 


1. 微 博 API 介绍 


微 博 API 是 微 博 官方 提供 给 开发 人 员 的 一 组 函数 调用 接口 ,这 是 一 种 在 线 调用 
方式 ,不同 于 普通 编程 语言 所 提供 的 函数 。 这 些 API 能 够 根据 输入 的 参数 返回 相应 
的 数据 ,其 范围 涵盖 用 户 个 人 信息 ,用户 的 粉丝 和 关注 .用户 发 布 的 博文 .博文 的 评论 
等 。 只 要 携 市 符合 要 求 的 参数 癌 接口 发 送 HTTP 请 求 ,接口 就 会 返回 所 对 应 的 
JSON 格式 数据 。 

新 浪 微 博 提供 的 API 有 九 大 类 , 即 粉 丝 服务 接口 、 微 博 接口 .评论 接口 .用户 接 
口 .关系 接口 .搜索 接口 , 短 链 接口 .公共 服务 接口 和 OAuth 2.0 授权 接口 。 这 些 接口 
的 名 称 及 功能 如 表 9-1 所 示 。 需 要 注音 的 是 ,新 浪 微 博 API 会 不 断 升 级 ,最 新 的 接口 
及 功能 可 以 到 官方 网 站 查阅 ,网 址 为 “http://open. weibo. com/wiki/ % E5% BE% 


1 
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AE%E5%8D%9AAPT 。 


表 9-1 新 浪 微 博 API 名 称 及 功能 列表 


微 博 类 API 名 称 及 功能 
statuses/ home_timeline 获取 当前 登录 用 户 及 其 所 关注 用 户 的 最 新 微 博 
statuses/ user_timeline 获取 用 户 发 布 的 微 博 
statuses/ repost_timeline 返回 一 条 原创 微 博 的 最 新 转发 微 博 
. statuses/ mentions 获取 @@ 当 前 用 户 的 最 新 微 博 
Sh statuses/ show 根据 ID 获取 单条 微 博 信息 
statuses/ count 批量 获取 指定 微 博 的 转发 数 、 评 论 数 
根据 ID 跳 转 到 单条 微 博 页 
获取 官方 表情 
写 人 接口 statuses/share 第 三 方 分享 链 接 到 微 博 


评论 类 API 名 称 及 功能 


获取 某 条 向 二 的 评论 区 表 
我 发 出 的 评论 列表 
， 我 收 到 的 评论 列表 
获取 用 户 发 送 及 收 到 的 评论 列表 


comments/ mentions 获取 @ 到 我 的 评论 
comments/ show_batch 批量 获取 评论 内 容 
到 一 条 
写 人 接口 comments/ destroy 删 除 一 条 我 的 评论 
四 comments/ destroy_batch 批量 删除 我 的 评论 
各 一 条 我 收 到 的 评 
用 户 类 API 名 称 及 功能 
天启 
读 取 接口 users/ domain_show 通过 个 性 域名 获取 用 户 信 息 
批量 获取 用 户 的 粉丝 数 ,关注 数 、 微 博 数 
关系 类 API 名 称 及 功能 
po friendships/ {riends 获取 用 户 的 关注 列表 
大 注 读 取 接口 ee 获取 用 户 关 注 对 象 UID 列表 
{riendships/ followers 获取 用 户 粉 丝 列 表 
粉丝 读 取 接口 Ss followers /ids 获取 用 户 粉 丝 UID 列表 
关系 读 取 接口 | friendships/show 获取 两 个 用 户 之 间 是 否 存 在 关注 关系 
搜索 类 API 名 称 及 功能 
搜索 话题 接口 | search/topics 搜索 革 一 话题 下 的 微 博 
短 链 类 API 名 称 及 功能 
转换 接口 short_url/expand 短 链 转 长 链 
数据 接口 short_url sharey counts 获取 得 链接 在 微 博 上 的 微 博 分 享 数 


short_url/comment/ counts 获取 短 链接 在 微 博 上 的 微 博 评论 数 
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公共 服务 类 API 名 称 及 功能 
通过 地 址 编码 获取 地 址 名 称 

common/get city 获取 城市 列表 
读 取 接口 common/ get_province 获取 省 份 列表 

common/ get_country 获取 国家 列表 

commony get_timezone 获取 时 区 配置 表 

OAuth2 API 名 称 及 功能 

请 求 授 权 oauth2/authorize 请 求 用 户 授 权 Token 
获取 授权 oauth2/access_ token 获取 授权 过 的 Access Token 
授权 查询 oauth2/ get token info 查询 用 户 access token 的 授权 相关 信息 


OAuth 1.0 的 Access Token 男 换 至 OAuth 2. 0 


替换 授权 oauth2/ get_oauth2_token 的 Access Token 


授权 回收 oauth2/revokeoauth2 授权 回收 接口 ,帮助 开发 者 主动 取消 用 户 的 授权 
account/rate limit_ status 获取 当前 授权 用 户 的 API 访问 频率 限制 
aa 反之 后 了 用户 的 U 


account/ profile/ email 授权 之 后 获取 用 户 的 联系 邮箱 


2. 微 博 API 的 使 用 方法 


对 于 每 个 API, 新 沪 微 博 规定 了 其 请 求 和 参数、 返回 字段 说 明 、 是 否 需 要 登录 、 
HTTP 请 求 方式 .访问 授权 限制 (包括 访问 级 别 . 是 否 频次 限制 ) 等 关键 信息 。 其 中 ， 
请 求 参 数 是 API 的 输入 ,返回 字段 是 API 调用 的 输出 结果 ,一 般 以 JSON 的 形式 进 
行 封装 。HTTP 请 求 方式 支持 GET 和 POST 两 种 ,访问 授权 限制 则 规定 了 客户 端 
调用 API 的 一 些 约束 条 件 。 

以 statuses/show 接口 为 例 , 其 功能 是 根据 微 博 ID 获取 单条 微 博 内 容 。 请 求 参 
数 被 定义 为 如 表 9-2 所 示 , 其 中 access_token 是 授权 得 到 的 值 。 

表 9-2 statuses/show 接口 的 参数 
参 数 类 型 及 范围 说 明 
access_token 采用 OAuth 授权 方式 为 必 填 参数 ,在 OAuth 授权 后 获得 


i 震 要 交友 的 敌人 


返回 的 字段 共有 24 个 ,在 新 沪 微 博 的 开发 文档 中 对 此 做 了 详细 的 说 明 , 部 分 字 
段 如 表 9-3 所 示 。 
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表 9-3 statuses/show 接口 返回 的 部 分 数据 
返回 值 字段 字段 说 明 


reposts_count Int 转发 数 


这 些 字段 被 封装 为 JSON 格式 ,以 下 是 一 个 例子 ,其 他 没有 列 出 的 字段 用 省 略 号 


"created at": "Tue Apr 16 14:52:56 + 0800 2019", 
“id : 4361715926064329 ， 
"text": “居然 到 现在 才 开始 用 微 博 ,哈哈 "， 


"reposts count : 0, 
“Comments_count : 0, 


使 用 Python 进行 接口 调用 类 似 于 普通 爬虫 ,可 以 使 用 requests 发 送 请 求 信 息 ， 


根据 该 接口 的 要 求 ,请求 信 息 中 包含 access_ token 和 id 即 可 。 在 请 求 发 送 之 后 可 以 
对 返回 结果 进行 JSON 解析 ,获得 text 字段 的 内 容 , 如 下 : 


# 接口 对 应 的 URL, 每 个 API 对 应 一 个 URL, 可 以 在 在 线 开发 文档 页 面 中 查看 
url = 'https://api.weibo. com/2/statuses/show. json' 


# 请 求 参 数 : access token 和 微 博 的 ID 
url dict = {'access token': access token, 'id': wid} 
url param = parse.urlencode(url dict) 


# 发 起 请 求 


res = requests.get(url="'%s%ss%s' 外 (url, '?', url param), headers = header dict) 


# 解析 返回 的 JSON 


decode data = json. loads(res. text) 


# 提取 text 字段 的 内 容 
text = decode datal 'text'] 


在 设计 中 ,为 了 让 自己 的 采集 程序 更 加 健壮 ,一 般 需 要 进行 错误 处 理 。 错 误 信息 
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也 是 JSON 形式 ,下 面 是 一 个 样 例 : 


"request" : "/ statuses/home timeline. json", 
"error code” : “20502”， 
"error” : “ Need you follow uid. 

} 


一 些 和 常见 的 错误 代码 如 表 9-4 和 表 9-5 所 示 。 完 整 的 错误 代码 见 https://open 


weibo. com/ wiki/ Error _ code。 


表 9-4 系统 级 错误 代码 


错误 代码 许 细 描述 


10002 Service unavailable 服务 暂停 
10012 lllegal request 非法 请 求 


10013 Invalid weibo user 不 合法 的 微 博 用 户 
10022 IP requests out of rate limit IP 请 求 频次 超过 上 限 
10023 User requests out of rate limit 用 户 请 求 频 次 超过 上 限 


表 9-5 服务 级 馆 误 代码 


错误 代 详细 描述 
20002 Uid parameter is null uid 参数 为 空 
20003 User does not exists 用 户 不 存在 
20008 Content is null 内 容 为 空 
20016 Out of limit 发 布 内 容 过 于 频 索 
300 和信 法 内容 
20022 Your ip's behave in a comic boisterous or unruly manner | 此 IP 地 址 上 的 行为 异常 
21502 Urls is too many 参数 urls 太 多 了 
21601 Manage notice error, need auth 需要 系统 管理 员 的 权限 
21602 Contains forbid word 含有 敏感 词 
21603 Applications send notice Over the restrictions 通知 发 送 达 到 限制 


9.3.3 采集 微 博 用 户 个 人 信息 


微 博 用 户 的 个 人 信息 包括 用 户 昵 称 、 何 介 、 粉 丝 数 、 关 注 数 、 微 博 数 等 ,通过 调用 
微 博 开 发 接口 API 可 以 得 到 这 些 个 人 信息 数据 。 该 接口 为 users/show ,请 求 参 数 如 
表 9-6 所 示 , 其 中 参数 uid 和 screen _ name 必 选 其 一 , 且 只 能 选 一 
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表 9-6 users/show 的 请 求 参 数 


access_ token 采用 OAuth 授权 方式 为 必 填 参数 ,在 OAuth 授权 后 获得 
下 要 齐 而 的 用 户 iD 


该 接口 返回 的 信息 包含 了 用 户 的 昵称 省份. 头像 粉丝 数 等 ,具体 见 表 9-7。 


表 9-7 users/show 的 返回 信息 


返回 值 字 段 字段 说 明 
id 用 户 UID 
idstr 字符 串 型 的 用 户 UID 
screen name 户 昵 称 
name 友好 显示 名 称 
province int 户 所 在 省 级 ID 
city 用 户 所 在 城市 ID 
location 用 户 所 在 地 
description 用 户 个 人 描述 
url 户 博 客 地 址 
profile_image_url 用 户头 像 地 址 (中 图 ),50X50 像 聚 
profile_url 户 的 微 博 统一 URL 地 址 
domain 用 户 的 个 性 化 域名 
welhao 户 的 微 号 
gender 性 别 ,m 为 男 f 为 女 、n 为 未 知 
followers_ count int 粉丝 数 
friends_count 关注 数 
statuses_count 微 博 数 
favourites_count 收藏 数 
created at 户 创建 (注册 ) 时 间 
following 暂 未 支持 
allow _ all _act_msg 是 否 人 允许 所 有 人 给 我 发 私信 ,true 为 是 ,false 为 否 
geo_enabled 是 否 允 许 标识 用 户 的 地 理 位 置 ,true 为 是 ,false 为 否 
verified 是 否 为 微 博 认证 用 户 , 即 加 VV 用 户 ,true 为 是 ,false 为 否 
verified_ type it 暂 未 支持 
remark 用 户 备注 信息 ,只 有 在 查询 用 户 关系 时 才 返 回 此 字段 
status 用 户 的 最 近 一 条 微 博信 息 字段 
allow all comment 是 否 允 许 所 有 人 对 我 的 微 博 进行 评论 ,true 为 是 ,false 为 否 
avatar _ large 户头 像 地 址 (大 图 ),180X180 像素 
avatar hd 用 户头 像 地 址 (高 清 ) ,高 清 头像 原 图 
verified reason 认证 厚 
follow_me 该 用 户 是 否 关 注 当 前 登录 用 户 ,true 为 是 ,false 为 否 
online status int 用 户 的 在 线 状态 ,0 为 不 在 线 ,1 为 在 线 
bi _ followers_count int 用 户 的 互 粉 数 


用 户 当 前 的 语言 版 本 ,zh-cn 为 简体 中 文 ,zh-tw 为 繁体 中 文 ， 
en 为 英语 


lang string 
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在 理解 接口 定义 之 后 ,可 以 使 用 Python 来 实现 微 博 个 人 信息 采集 ,主要 过 程 包 
括 按照 请 求 参 数 构造 .发 起 请 求 和 结果 的 提取 与 转换 。 具 体 的 程序 代码 和 解释 如 下 。 


Prog - 12 - weiboUserInfo. py 
#-—-¥*— coding: utf 一 8 一 关 一 
from urllib import parse 
import requests 

import json 


# 调 用 users/show 接口 
def get pinfo(access_ token, uid): 
# 用 户 个 人 信息 字典 
pinfo dict = {} 
url = 'https://api.weibo. com/2/users/show. json' 
url dict = {'access token': access token, 'uid': uid} 
url] param = parse.urlencode(ur] dict) 
res= requests.get(url='%s%ss%s' SS (url, '?', url param), headers = header dict) 


decode data = json. loads(res. text) 

pinfo dict[ ' 了 昵称 '] = decode data[ 'name'] 

pinfo dict[ ' 简 介 '] 

# 性 别 , 转换 一 下 

if decode datal[l 'gender'] == 'f': 
pinfo_dict[ ' 性 别 '] = ' 女 ' 

elif decode datal[ 'gender'] == 'm': 


decode_data[ 'description'] 


pinfo_dict[ ' 性 别 '] = ' 男 ' 
else: 

pinfo_dict[ ' 性 别 '] = ' 未 知 ' 
井 注册 时 间 
pinfo dict[ ' 注 册 时 间 '] = decode data[ 'created at'] 
# 粉丝 数 
pinfo dict[ ' 粉 丝 数 '] = decode data[ 'followers count'] 
pinfo dict[ ' 关 注 数 '] = decode data[ 'friends count'] 
# 微 博 数 
pinfo dict[ ' 微 博 数 '] = decode data[ 'statuses count'] 
# 收藏 数 


pinfo dict[ ' 收 藏 数 '] = decode data[ 'favourites count '] 
return pinfo dict 


i name ”== nain': 

header dict = {'User— Agent': Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like 
Gecko'} 

# 填写 access token 参数 与 uid 

access token = ' xxxxxxxxxxxxxxxx¥x' 间 通 过 9.2 节 的 方法 获得 ,每 个 人 不 一 样 

uid = '7059060320" 


pinfo = get pinfo(access token, uid) 


192〗 Python 疏 虫 大 数据 采集 与 挖掘 - 微 谋 视 频 版 


for kev, value in pinfo. itemsf( ) : 


print('{k}:{v}'.format(k = kev, v= value)) 


在 HTTP 请 求 中 携带 access_token 和 uid 参数 访问 接口 ,获得 一 个 JSON 格式 
的 返回 结果 ,对 JSON 进行 解析 即 可 。 运 行 结果 如 图 9-5 所 示 ， 


en 互联 网 大 数据 IntBigData 
# 注 互联 网 大 数据 与 安全 技术 


9.3.4 采集 微 博 博 文 


使 用 微 博 API 获取 博文 主要 涉及 两 个 接口 , 即 statuses/user_timeline/ids 和 
者 用 于 获取 用 户 发 布 的 微 博 的 ID 列表 ,后 者 是 根据 微 博 ID 获得 
单条 微 博信 息 内 容 , 包 括 文 本 内 容 、 图 片 以 及 评论 转发 情况 等 。 以 下 是 这 两 个 接口 的 
详细 说 明 。 

(1) statuses/user_timeline/ids: 该 接口 的 请 求 参 数 包 括 采 用 OAuth 授权 后 获 
得 的 access_token, 以 及 所 需要 检索 的 微 博 用 户 ID, 具 体 定义 如 表 9-8 所 示 , 有 些 参数 
是 可 选 的 ,采用 默认 信 。 如 果 获 取 目 己 的 微 博 , 参 数 uid 和 screen_name 可 以 不 填 。 
如 果 获 取 他 人 的 微 博 ,这 两 个 参数 十 写 一 个 即 可 。 


statuses/ show , 前 


表 9-8 statuses/user timeline/ids 的 请 求 参 数 
参数 名 称 % 选 “| 类 型 及 范围 说 明 
access token 采用 OAuth 授权 方式 为 必 填 参数 ,在 OAuth 授权 后 获得 


可 天 要 村 将 的 用 户 人 D 


. . fal es 奇 指定 此 参数 , 则 返回 ID 比 since_id 大 的 微 博 ( 即 比 
下 since_id 时 间 晚 的 微 博 ) ,默认 为 0 
. . 在 指 定 此 参数 , 则 返回 ID 小 于 或 等 于 max_id 的 微 博 ， 
max_ id false int 64 - 
默认 为 0 


count ”false | int | 单 页 返回 的 记录 条 数 ,最 多 不 超过 100, 默 认为 20 
page 返回 结果 的 页 码 ,默认 为 1 


eo a 是 否 只 获取 当前 应 用 的 数据 ,0 为 否 ( 所 有 数据 ),1 为 是 
( 仅 当 前 应 用 ) ,默认 为 0 
a ae 过 滤 类 型 ID,0 为 全 部 .1 为 原创 .2 为 图 片 .3 为 视频 .4 
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该 接口 只 返回 最 新 的 5 条 数据 , 即 用 户 UID 所 发 布 的 微 博 ID 列表。 格式 如 下 ， 


statuses 中 即 为 记录 列表 ， 


"statuses": [ 
“3382905382185354 ， 
“3382905252160340 ， 
“3382905235630562 ， 


]， 

“previous_cursor : 0, /1/ 暂 未 支持 
"next cursor": 0, / /本 未 文 持 
"total number": 16 


(2) statuses/show: 该 接口 的 请 求 参数 也 包括 采用 OAuth 授权 后 获得 的 access 


表 9-9 ”statuses/show 的 请 求 参数 
参数 名 称 必 选 | 类 型 及 范围 说 明 
access_token 采用 OAuth 授权 方式 为 必 填 参数 ,在 OAuth 授权 后 获得 


该 接口 返回 微 博 的 相关 属性 值 ,包括 微 博 创建 时 间 、 文 本 内 容 等 ,具体 如 表 9-1( 
所 示 。 


表 9-10 statuses/show 的 返回 字段 
返回 值 字 段 字段 类 型 字段 说 明 


created at 微 博 创建 时 间 


mid 微 博 MID 

idstr 字符 串 型 的 微 博 ID 

text 微 博信 息 内 容 

SOUICe 微 博 来 源 

favorited 是 否 已 收藏 ,true 为 是 ,false 为 否 
truncated 是 否 被 截断 ,true 为 是 ,false 为 否 

in _ reply to _status_ ld ( 暂 未 支持 ) 回 复 ID 
in_reply_to_user id ( 暂 未 支持 ) 回 复 人 UID 

in reply to_screen name ( 暂 未 支持 ) 回 复 人 昵称 
thumbnail_pic 缩 略 图 片 地 址 ,没有 时 不 返回 此 字段 
bmiddle_pic 中 等 尺寸 图 片 地 址 ,没有 时 不 返回 此 字段 


Original pic 原始 图 片 地 址 ,没有 时 不 返回 此 字段 
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返回 值 字段 F 段 类 型 字段 说 明 
geo 地 理 信息 字段 
user 微 博 作者 的 用 户 信息 字段 
retweeted_status 被 转发 的 原 微 博信 息 字段 , 当 该 微 博 为 转发 微 博时 返回 
reposts_count 转发 数 
comments count int 评论 数 
attitudes count int 表态 数 
mlevel 暂 未 支持 


微 博 的 可 见 性 及 指定 可 见 分 组 信息 。 该 object 中 type 的 


visible 取 值 ; 0 为 普通 微 博 ,1 为 私密 微 博 ， 3 为 指定 分 组 微 博 ， 
4 为 密友 微 博 ; list id 为 分 组 的 组 号 
微 博 配 图 ID。 多 图 时 返回 多 图 ID, 用 来 拼接 图 片 URL.， 
pic_ids 用 返回 字段 thumbnail_pic 的 地 址 配 上 该 返回 字段 的 图 


片 ID, 即 可 得 到 多 个 图 片 URL 


ad 微 博 流 内 的 推广 微 博 ID 


下 面 以 statuses/user_timeline/ids 接口 为 例 来 说 明 具 体 的 调用 和 处 理 方法 。 

(1) 根据 接口 说 明 构 造 正 确 的 HTTP 请 求 。 

阅读 在 线 接口 说 明 可 知 , 该 接口 需要 以 GET 方式 请 求 , 必 选 参数 为 access_ 
token ,返回 格式 为 JSON。 其 中 必 选 参数 access_token 来 源 于 OAuth 授权 ,具体 创 
建 方法 见 9. 2 节 。 

(2) 向 服务 端 发 送 HTTP 请 求 , 并 处 理 返回 数据 。 

在 获取 了 access_token 之 后 ,就 可 以 使 用 Python 内 建 模 块 urllib 构建 HTTP 请 
求 或 用 requests 发 送 请 求 。 可 以 发 现 返回 的 JSON 中 包含 了 该 用 户 最 新 5 条 微 博 的 
ID, 这 是 因为 由 于 微 博 API 的 限制 , 非 商 用 授权 调用 微 博 API 中 的 statuses/user_ 
timeline/ids 接口 只 能 获取 已 授权 用 户 的 最 新 5 条 博文 。 

在 获得 微 博 ID 数据 集 之 后 ,逐条 记录 调用 接口 statuses/show ,该 接口 会 返回 对 
应 微 博 ID 的 博文 信息 。 程 序 解析 JSON 封装 的 数据 , 即 可 实现 获取 用 户 博 文 信息 的 
目标 。 整 个 处 理 过 程 如 图 9-6 所 示 。 


构 反 HTTP 请 求 
获取 用 户 最 新 


解析 JSON 根据 微 博 ID 获 


得 到 微 博 ID 取 博 文 


做 博 ID 


图 9-6 微 博 信息 采集 过 程 
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基于 这 样 的 设计 思路 ,使 用 Python 语言 可 以 构造 get_weibo() ,get_weiboid() 两 


个 郴 数 来 获得 指定 用 户 的 最 近 博 文 信息 。 在 程序 中 需要 导 和 人 JSON ,具体 程序 及 解释 
如 下 : 


Prog - 13 - weiboMsgInfo. py 
井 --# 一 coding: utf 一 8 一 关 一 
from urllib import parse 
import requests 


import json 


调用 statuses/show 接口 
def get weibo(access token, wid, header dict): 
url = 'https://api.weibo. com/2/statuses/show. json' 
url dict = {'access token': access token, 'id': wid} 
url param = parse.urlencode(url dict) 
res = requests.get(url='%s$%s$%s' $% (url, '?', url param), headers = header dict) 
decode data = json. loads(res. text) 
text = decode datal 'text'| 
if 'retweeted status' in decode data: 
text += '<--- 原始 微 博 : '+ decode data[ 'retweeted status']['text'] 
return text 


井 调用 statuses/user timeline/ids 接口 
def get weiboid(access token, header dict): 
url = 'https://api.weibo. com/2/statuses/user timeline/ids. json' 
url dict = {'access token': access token} 
url] param = parse.urlencode(url] dict) 
res= requests.get({url='%s%ss%s' SS (url, '?', url param), headers = header dict) 
decode data = json. loads(res. text) 
wid list = decode data[ 'statuses'] 


return wid list 


header dict = {'User— Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like 
Gecko'} 
# 填写 access _ token 参数 
access token = '2.00cDGjhHQUpTpCf203bf4e270j8kfF' 
wid list = get weiboid(access token = access token, header dict = header dict) 
# 输出 博文 
for item in wid list: 
weibo text = get weibo(access token = access token, wid = item, header dict = header 
dict) 
print( ' 微 博 jd:' + str(item) + '—-->'+weibo text+ '\n') 
print(' 获 取 结 束 \n') 


样 例 首 先 使 用 get_weiboid() 负数 调用 statuses/user_timeline/ids 接口 ,获取 最 
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新 5 条 微 博 的 ID; 然后 使 用 get_weibo() 图 数 调用 statuses/show 接口 ,传人 刚刚 得 
到 的 微 博 ID, 并 获得 返回 的 对 应 ID 的 博文 内 容 。 
运行 结果 如 图 9-7 所 示 , 显 示 了 作者 发 的 3 条 博文 。 


i 人 人 

蚂 上 可 以 中 到 六 有 尼 尖 和 年 上 
人 因 ; 
用 。 对 于 IT 公司 的 研发 人 员 
据 相 关 岗 位 前 ， 总 是 觉得 要 .全文 : http: 
7059060320/4361726088018382 


微 博 id:4361715926064329---3 导 然 到 现在 才 开 始 用 微 博 ， 哈 哈 
微 博 id:4356328010530343--->haha 
获取 结束 


a 
人 


图 9-7 采集 微 博 博 文 的 输出 结果 
9.3.5 微 博 API 的 限制 


微 博 开放 接口 限制 每 段 时 间 只 能 请 求 一 定 的 次 数 。 限 制 的 单位 时 间 有 每 小 时 、 
每 天 ; 限制 的 维度 有 单 授权 用 户 和 单 IP; 部 分 特殊 接口 有 单独 的 请 求 次 数 限 制 。 但 
这 些 限 制 信也 不 是 不 固定 的 ,不 同 的 应 用 有 不 同 的 限制 ,取决 于 应 用 目 身 的 质量 。 质 
量 高 的 应 用 这 些 数值 束 高 ,也 台 是 请 求 限制 小 。 当 开发 着 调用 接口 不 能 满足 开发 需 
求 , 且 授权 用 户 数 高 于 20 万 时 ,可 以 直接 和 新 少 微 博 申请 合作 伙伴 洽谈 。 
目前 , 微 博 开 放 平 台 的 安全 机 制 能 非 第 准确 地 识别 接口 访问 是 用 户 行 为 调用 
还 是 机 各 人 程 厅 调 用 。 超 过 频次 限制 的 过 上 度 调 用 或 者 是 非 用 户主 动 频 繁 调用 ( 即 
使 未 超过 频次 限制 ) 微 埔 开放 接口 都 会 导致 应 用 (appkey) \IP 锐 微 博 开 放 平 全 的 安 
全 机 制 识 别 为 机 釉 人 程序 或 者 恶意 抓 取 用 户 数据 等 违反 微 博 开发 者 协议 的 情况 ， 
从 而 造成 该 应 用 、IP 的 接口 访问 权限 被 封 葵 ,造成 所 有 开放 接口 的 请 求 都 会 被 
限制 。 
开发 者 可 以 更 智能 地 管理 目 己 的 访问 频次 ,例如 在 最 近 几 次 访问 数据 午 没 有 获 
取 到 新 数据 的 情况 下 ,可 以 适当 减少 访问 频率 。 开 发 者 还 可 以 适当 在 客户 问 缓 存 部 
分 数据 ,而 不 是 每 次 部 卫 接 调用 微 博 开放 接口 。 需 要 注意 的 是 , 微 博 开放 平台 花 止 第 
三 方 服务 顶端 存储 用 户 数 据 ,所 以 采用 此 方法 只 能 缓存 在 客户 疹 , 不 能 上 传 到 外 部 服 
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9.4 通过 疏 虫 采集 徽 博 信息 


通过 微 博 API 虽 然 可 以 很 方便 地 采集 到 所 需要 的 信息 ,而 不 需要 像 伶 虫 那 桂 进 
行 大 量 的 页 面 信息 分 析 和 提取 ,但 是 微 博 API 在 调用 频次 、 返 回 数据 记录 数 等 方面 有 
一 定 限 制 , 所 以 ,如 来 需要 大 量 地 米 集 微 博 信息 , 微 博 API 将 难以 满足 需求 。 

在 这 种 悄 况 下 了 束 需 要 使 用 息 虫 技术 来 获取 博文 信息 。 人 针对 目前 一 些 主流 的 微 博 
系统 架构 ,爬虫 未 集 微 博 信息 有 以 下 几 种 方法 。 


1. 利用 微 博 PC 版 进行 命令 发 送 与 结果 的 采集 


通常 微 博 PC 版 使 用 了 Ajax(Asynchronous Javascript And XML) 技 术 。 这 部 分 
内 容 需 要 执行 页 面 中 的 JS 进行 动态 加 载 , 而 普通 爬虫 只 能 获取 第 一 次 抓 到 的 HTTP 
内 容 ,不 会 执行 JS 脚本 ,所 以 通过 简单 的 HTTP 请 求 是 无 法 获取 需要 的 信息 的 。 一 
种 途径 是 找到 Ajax 动态 加 载 的 请 求 地 址 直接 获取 Ajax 内 容 , 但 是 当 遇 到 加 密 的 JS 
时 ,要 分 析 并 找到 请 求 地 址 就 会 非常 困难 。 另 一 种 途径 是 使 用 无 界面 浏览 器 ,基于 模 
拟 浏览 器 方式 执行 JS 代码 以 获取 完整 HTML 内 容 。 其 缺点 是 执行 速度 慢 。 由 于 具 
体 的 技术 运用 和 实现 在 本 书 5.6 下 中 已 经 介绍 过 ,这 里 不 再 歼 述 。 


2. 通过 微 博 的 移动 端 网 页 来 采集 内 容 


目前 国内 外 主流 的 微 博 午 提供 了 移动 病 接 人 方式 ,移动 病 网 员 和 了 PC 病 网 页 的 人 
口 不 同 ,页 面 结 构 存 在 一 定 差异 。 在 一 般 情况 下 ,移动 并 页 面 并 不 采用 Ajax 技术 ,而 
是 可 以 且 接 提取 ,与 PC 版 网 页 相 比 可 能 缺失 部 分 内 容 。 

不 管 是 哪 种 方式 , 微 博 邦 需 要 和 匈 登 录 才 能 看 到 页 面 信 和 息 。 在 程序 实现 中 ,为 了 能 
够 目 动 根据 设 定 的 用 户 名 和 口令 登录 ,可 以 使 用 cookies 技术 。 实 际 上 ,在 登录 微 博 
之 后 ,服务 病 会 返回 cookies, 其 中 保存 了 登录 信息 。 该 cookies 信息 可 以 通过 浏览 估 
的 开发 者 工具 来 获得 ,具体 见 5.4 古 介绍 的 方法 。 但 需要 注意 Cookie 的 时 效 性 ,过 
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一 个 完整 的 流程 如 图 9-8 所 示 , 虚 框 是 爬虫 程序 可 以 反复 抓 取 不 同 页 面 的 过 程 ， 
但 是 在 这 之 前 需要 对 获取 登录 的 Cookie。 


(1) 模拟 用 尸 登 隶 请 求 


客户 新 短 因 上 服务 闸 


(2) 返回 登录 结果 (cookies) 


(3) 请 求 竺 定 页 面 


(4) 返回 HTML 页 面 


(5) 分 析 页 面 ， 提 取 和 链接 与 内 容 


(6) 存储 数据 


(7) 使 用 提取 的 链接 ， 重 复 步 又 (3) 
重复 执行 


图 9-8 通过 抓 取 HTML 的 方式 采集 微 博 信息 


登录 成 功 后 ,采集 微 博 信息 实际 上 就 是 获取 到 微 博 平台 返回 的 HTML 编 权 内 容 
后 对 页 面 的 HTML 结构 进行 分 析 ,将 其 中 的 信息 规格 化 。 采 用 正则 表达 式 、 树 形 结 
构 特 征 匹 配 等 方法 提取 页 面 中 所 需要 的 数据 ,在 具体 实现 上 可 以 采用 lxml、 
BeautifulSoup 等 HTML 解析 工具 解析 获取 指定 位 置 的 数据 ,同时 可 以 根据 页 面 内 
的 超 链接 关系 进行 更 多 页 面 的 爬 取 与 采集 。 这 些 方法 与 第 4 章 . 第 5 章 介 绍 的 处 理 
方法 是 一 样 的 ,这 里 不 再 介绍 。 

值得 一 提 的 是 ,很 多 微 博 使 用 Robots 协议 限制 念 虫 方式 抓 取 页 面 内 容 ,因此 可 
以 根据 微 博 的 具体 情况 来 选择 使 用 爬虫 技术 。 通 常 应 当 减 少 疏 虫 对 微 博 网 站 的 影响 
以 及 避免 被 反 爬 虫 机 制 检测 到 ,例如 可 以 设置 一 定 的 随机 延 时 ,模仿 正常 用 户 的 操作 
行为 。 延 时 可 通过 time. sleep() 实 现 。 


# 随机 体 虐 3 一 10 秒 
random sleep = numpy. random. randint(3, 10) 
time. sleep(random sleep) 


> WW 


.和 何 述 微 博 信息 米 集 方法 。 

.等 习 葡 得 短 博 开放 平台 授权 的 方法 。 

. 抓 取 目 己 微 博 的 相关 个 人 信息 和 博文 信息 。 
. 简 述 通过 API 方 式 采 集 微 博 的 优 缺 点 。 
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候 虫 技术 与 反 反 的 虫 技术 


不 管 是 网 站 省 理 员 还 古 息 虫 开 发 人 员 必 迫切 需要 全 面 了 解 反 有 息 虫 搁 术 。 沪 音 爬 
虫 访问 影响 了 网 站 的 正 弟 运行 ,有 反 息 虫 技术 应 运 而 生 , 本 半 介 绍 了 反扑 虫 技术 原理 及 
第 见 的 反 息 虫 技术 。 为 一 方面 ,和 仆 虫 端 为 了 突破 网 站 反 息 虫 措施 ,也 有 对 如 何 突破 扑 
虫 限制 的 需求 ,为 此 本 革 同 时 介绍 了 反 反 息 虫 拉 术 。 


10.1 两 种 技术 的 概述 


随 着 互联 网 的 高 速 发 展 ,提供 公众 服务 的 站 点 越 来 越 多 ,能 够 被 公开 访问 到 的 
Web 页 面 以 倍速 增加 ,这 些 页 面 之 中 所 包含 的 信息 是 普通 搜索 引擎 和 其 他 让 虫 采集 
的 目标 。 由 此 ,互联 网 上 采集 数据 的 疏 虫 越 来 越 广泛 ,对 于 某 个 Web 站 点 来 说 ,每 天 
可 能 经 常会 有 不 同 的 让 虫 “光顾 ”。 

通常 情况 下 ,Web 站 点 会 在 其 根 目录 下 放置 一 个 robots. txt 文件 ,以 提醒 候 虫 遵 
守 Robots 协议 (Robots Exclusion Protocol) 的 约束 ,例如 哪些 页 面 可 以 抓 取 , 哪 些 页 
面 不 能 抓 取 , 然 而 并 非 所 有 的 采集 者 都 能 够 遵循 该 协议 。 其 原因 可 能 是 候 虫 程序 设 
计 得 很 糟糕, 也 可 能 这 种 息 取 本 身 就 是 恶意 的 ,一 般 统称 此 类 抱 虫 为 “不 友好 的 候 虫 


或 恶意 私 虫 。 不 友好 的 疏 虫 往往 会 导致 Web 站 点 服务 压力 陡 增 ,严重 时 会 导致 类 似 
的 拒绝 服务 (DOS) 攻 击 。 因 此 ,Web 站 点 的 管理 者 往往 需要 提防 不 友好 疏 虫 所 导致 
的 各 种 问题 。 从 这 个 角度 看 , 反 疏 虫 技术 是 一 种 十 分 必要 的 技术 。 

有 趣 的 是 , 随 着 反 疏 虫 技术 的 升级 , 反 反 疏 虫 技术 也 在 不 断 演进 。 其 主要 推动 力 
来 自 于 对 互联 网 大 数据 的 广泛 需求 ,在 很 多 与 大 数据 相关 的 研究 和 教学 活动 中 需要 
大 量 的 数据 ,然而 反 谎 虫 技术 限制 了 数据 获取 。 另 一 方面 的 需求 则 来 自 于 网 站 的 许 
可 抱 虫 ,一 个 网 站 的 来 访 息 虫 包含 Robots 协议 的 许可 怜 虫 和 非 许 可 疏 虫 ,而 网 站 很 
难 完全 准确 地 区 分 这 两 种 疏 虫 ,因此 统一 的 反 疏 虫 技术 导致 许可 疏 虫 无 法 正常 访问 。 
在 这 种 情况 下 ,网 站 管理 者 和 有 疏 虫 设计 人 员 都 需要 了 解 反 反 疏 虫 技术 。 

以 上 两 方面 的 问题 导致 了 网 站 和 有 疏 虫 双方 的 技术 博弈 不 断 进行 , 反 疏 虫 与 反 反 
疏 虫 技术 就 好 像 是 安全 领域 的 攻击 与 防御 一 样 ,相互 矛盾 ,相互 克制 ,同时 也 相互 促 
进 ,应 当 被 认为 是 互联 网 技术 进步 的 一 种 推动 力 。 


10.2 反 疏 虫 技术 


当面 对 不 友好 的 爬虫 时 ,Web 服务 器 需要 主动 运用 合适 的 技术 进行 反 疏 虫 。 反 
疏 虫 的 工作 主要 包括 两 个 方面 , 即 不 友好 疏 虫 的 识别 与 朴 虫 行为 的 阻止 。 识 别 朴 虫 
的 主要 任务 是 区 分 不 友好 息 取 行为 与 正常 浏览 行为 及 友好 息 虫 的 差异 。 阻 止息 忠 则 
是 阻止 恶意 的 爬 取 , 同 时 能 够 在 识别 错误 时 为 正 第 请 求 提 供 一 个 放行 的 通道 。 


10.2.1 疏 虫 检测 技术 


友好 的 人 息 虫 通常 是 休 守 Robots 协议 的 ,并 且 爬 取 频 率 和 策略 比较 合理 ,给 站 所 
市 来 的 资源 压力 和 安全 风险 较 小 ,而 不 友好 息 虫 会 在 其 息 取 的 行为 上 存在 不 巡 守 协 
议 以 及 疏 取 频率 高 等 问题 ,这 两 个 问题 会 对 站 点 服务 造成 比较 大 的 影响 。 不 遭 守 协 
议 的 爬虫 往往 意味 着 不 谈 取 robots. txt, 忽 略 协议 文件 中 的 内 容 , 对 站 点 内 的 敏感 信 
县 随便 抓 取 。 这 些 不 齐 守 协议 的 爬虫 同样 可 能 会 存在 全 站 疏 取 的 行为 , 除 敏 感 信 息 
泄露 外 ,还 会 导致 站 点 的 服务 硕 压 力 增加 ,对 于 使 用 动态 网 页 的 站 点 则 会 产生 大 量 的 
服务 华商 源 消耗 。 

与 友好 疏 虫 的 合理 爬 取 间 隅 设置 不 同 , 不 友好 的 爬虫 会 通过 较 高 的 并 发 ,以 期 在 
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短 时 间 内 获取 到 更 多 的 内 容 , 但 是 这 样 的 行为 不 仅 会 导致 服务 需 负 载 增 加 ,更 容易 导 
致 正常 用 户 的 体验 受到 影响 ,严重 情况 下 可 以 认为 站 点 受到 了 DOS 攻击 。 不 过 这 样 
的 疏 虫 往往 是 技术 能 力 较 差 或 忽视 行业 规范 导致 的 ,毕竟 数据 采集 的 目标 是 采集 数 
据 而 非 攻 击 对 方 服务 器 。 
币 情 况 下 ,在 用 户 通 过 浏览 硕 与 服务 大 进行 HTTP 访问 的 过 程 中 ,用 户 访 问 

Web 站 点 的 行为 从 发 送 Request 请 求 开 始 到 获取 到 服务 器 返回 的 Response 结束 。 
co 
成 ,具体 介绍 在 本 书 的 3.4 

HTTP Request 的 headers 包含 很 丰 驹 的 信息 ,通常 包括 Host( 访 问 请 求 的 目标 
主机 )、User-Agent( 浏 览 硕 名 、 版 本 号 、 操 作 系 统 名 、 版 本 号 以 及 默认 语言 )、Accept- 
Language( 用 户 的 默认 语言 )、Accept-Encoding( 对 数据 压缩 的 支持 ,一 般 包 括 gzip、 
deflate) .If Modified-Since( 仅 在 本 地 绥 存 过 的 页 面 有 此 选项 ,表示 最 后 文件 的 修改 日 
期 )、Cookie( 记 录 cookies 信息 ,包括 session id 以 及 站 点 自 定义 的 各 类 信息 )、Referer 
(访问 的 来 源 地 址 ,例如 从 搜索 引擎 访问 的 , 则 是 搜索 引擎 的 某 个 检索 页 面 )、 
Authorization( 对 于 登录 等 认证 请 求 动作 ,一 般 包 含有 Authorization 字段 ) 下面 是 使 
用 requests 库 构 建 HTTP 请 求 头 的 例子 ,包含 了 比较 完整 的 头 部 信息 。 


import requests 
headers = | 
"Host" :"net. tutsplus. com", 
"Accept" : "text/htnl, application/xhtml + xml,application/xml; " \ 
"q=0.9, image/webp, * /*% ;q= 0.8", 
"Accept - Encoding" :"text/html", 
"Accept - Language” :"en— US,en;q= 0.8,zh- CN;q= 0.6,zh;q= 0.4,zh— TWH;q= 0.2", 
"Keep— Alive”: "300", 
"Connection": "keep — alive", 
"Content — TYpe" :"application/x — www — form — urlencoded", 
"User - Mgent" :"Mozilla/5.0 (X11; CrOS x86 64 6253.0.0) AppleWebKit/537.36 " \ 
"(KHINMIT,, like Gecko) Chrome/39.0.2151.4 Safari/537. 36", 
"Pragma" : "no — cache", 
"Cache - Control": "no— cache", 
"Referer" : "http://localhost/test. php" 
} 
proxies = | 
‘http': "http://127.0.0.1:8087", 
‘https': http://127.0.0.1:8087", 
} 
worker session = requests. Session() 
r = worker session.get(url, proxies = proxies, cookies = cookies, verify = False, stream = 
True, headers = headers, timeout = 5) 
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其 中 的 headers 为 HTTP 请 求 的 头 ,在 Request 的 Session 中 被 发 送 给 目标 URL, 同 
时 发 送 的 还 有 cookies。requests 还 文 持 proxies (代理 )、stream (数据 流 方 式 )、 
timeout( 超 时 时 间 ) ,verify( 认 证 ) 等 参数 。 

反 疏 虫 技术 应 当 从 爬虫 程序 设计 和 浏览 锅 访 问 差异 的 角度 来 分 析 ,一 个 关键 的 
前 提 是 疏 虫 程序 设计 人 员 或 数据 采集 者 的 根本 目的 是 提高 数据 抓 取 效率 .简化 程序 

设计 。 疏 虫 在 发 起 HTTP 请 求 时 头 部 的 属性 通常 不 会 填充 完整 ,而 使 用 浏览 带 访 问 
时 HTTP 请 求 头 的 属性 值 由 浏览 融和 目 动 填充 , 通 凋 是 完整 的 ,因此 Web 服务 天 可 以 
通过 检测 HTTP 请 求 头 来 判断 是 否 朴 虫 访问 。 

从 这 个 简单 的 请 求 头 代 码 中 可 以 看 出 ,在 爬虫 程序 设计 中 也 可 以 使 用 代理 服务 
器 ,如 果 疏 虫 端 不 断 变 换代 理 服务 器 ,在 Web 服务 器 看 来 这 些 来 自 不 同 IP 的 请 求 尽 
管 请 求 头 不 完整 ,但 也 很 难 非常 确切 地 认为 是 爬虫 访问 。 除 处 理 HTTP 请 求 头 外 ， 
爬虫 的 访问 行为 本 身 也 应 当 作 为 一 种 区 别 的 特征 ,这样 才 能 提高 怜 虫 检测 的 准确 率 。 

这 里 归纳 一 下 正 凋 用 户 浏览 行为 与 爬虫 行为 的 主要 区 别 , 如 表 10-1 所 示 。 


表 10-1 正常 用 户 浏 览 行为 与 爬虫 行为 的 比较 


客户 端 IP 地 址 


HTTP 请 求 Headers 


Headers. referer 数据 合 
法 性 


请 求 中 特定 的 cookies 
数据 的 合法 性 


请 求 时 间 间 隔 规 律 性 


正常 用 户 浏览 行为 


同一 个 用 户 的 IP 一 般 不 会 变化 , 同 
一 时 间 有 段 内 不 同 用 户 之 间 的 IP 区 别 
比较 大 ,IP 地 理 分 布 和 请 求 量 分 布 也 
比较 随机 


使 用 流行 的 浏览 器 或 者 站 点 的 客户 
端 , Headers 数据 由 浏览 器 自动 生成 
并 填充 ,主要 包括 User 一 Agent、 人 允许 
的 字符 集 以 及 本 地 文件 的 过 期 时 


间 等 


HTTP 请 求 的 Headers. referer 是 本 
站 点 内 的 页 面 或 者 友好 网 站 ,例如 搜 
索引 擎 

每 次 访问 使 用 相同 的 浏览 禹 ,和 目 然 会 
调用 相同 的 cookies 


人 需要 花费 一 定 的 时 间 浏 览 页 面 内 
容 , 之 后 跳 转 至 下 一 页 面 ,或 者 同时 
打开 少量 的 页 面 进行 预 缓 存 


疏 虫 行为 
可 能 通过 单一 IP 或 者 代理 IP 访 


问 ,简单 的 疏 虫 往往 是 通过 单一 IP 
进行 访问 ,但 也 可 能 不 断 切换 使 用 
不 同 的 IP 地 址 


可 能 会 使 用 无 Header 浏览 器 ,或 
者 模拟 浏览 器 进行 访问 ,访问 请 求 
存在 无 Headers 数据 和 数据 内 容 
不 完整 的 情况 。 由 机 上 央 生 成 的 
Header 往往 内 容 相 对 固定 ,或 只 是 
HTTP 请 求 的 Headers. referer 可 
能 不 存在 或 是 随意 填写 的 ,不 在 合 
法 范围 内 


不 一 定 会 使 用 cookies 


采集 页 面 后 提取 其 中 的 超 链接 , 即 
进行 下 一 步 采集 ,每 次 访问 的 间隔 
相对 固定 (也 有 疏 虫 采用 增加 随机 
延 时 的 方式 模拟 目 然 人 访问 ) 
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正常 用 户 浏 览 行为 有 息 虫 行为 
能 够 在 页 面 出 现 异常 时 及 时 进行 干 
z :以 处 理 复 杂 的 验 i 或 验证 
能 否 通 过 验证 码 预 , 例 如 输入 验证 码 或 者 单 击 指定 的 El 


大 部 分 只 获取 HTML 文件 ,不 一 
定 进行 页 面 中 的 图 片 等 资源 的 二 


按钮 等 


加 载 页 面 时 会 加 载 相 关 的 所 有 JS、 
页 面 资源 加 载 特征 CSS 等 脚本 文件 和 图 片 等 静态 资源 ，| | 
RE 请求 ,但 所 浏览 器 的 惧 申 
这 个 过 程 是 浏览 器 自动 完成 的 Eee 
会 加 载 JS`CSS 


会 访问 页 面 的 所 有 资源 ,即使 在 页 面 | 一般 只 会 执行 页 面 可 见 的 JS, 访问 


页 面 JS 执行 特征 
页 面 JS 执行 特 和 有 上 对 自然 人 是 不 可 见 的 页 面 上 可 见 的 内 容 


在 前 面 分析 的 基础 上 ,可 以 得 到 这 样 的 结论 : 一 个 优秀 的 Web 访问 行为 识别 流 
程 应 当 能 区 分 三 种 Web 访问 请 求 , 为 网 站 管理 者 提供 有 效 的 信息 。 在 如 图 10-1 所 示 
的 流程 中 ,首先 将 爬虫 行为 于 人 的 训 览 行为 区 分 开 。 而 友好 怜 虫 污 恶意 爬虫 的 区 别 
会 比较 容易 ,主要 是 看 是 否 遵守 Robots 规范 .是 否 对 服务 器 产生 一 定 的 压力 。 


图 10-1 Web 访问 行为 识别 流程 


基于 正常 用 户 友好 疏 虫 .恶意 爬虫 之 间 的 差异 ,目前 使 用 的 反 爬 虫 技术 主要 有 
以 下 几 种 及 其 组 合 。 


| 第 10 章 反 胞 虫 技 术 与 反 反 私 虫 技术 205 


1. 通过 IP 与 访问 间隔 等 请 求 模 式 的 识别 


通过 对 短 时 间 内 出 现 的 大 量 访问 的 请 求 IP 地 址 ( 段 ) 进 行 分 机, 对 异 币 的 请 求 IP 
的 访问 请 求 要 求 进行 验证 或 临时 封 茶 IP 地 址 ( 段 )。 这 种 方法 主要 是 阻挡 大 量 的 请 
求 ,减少 服务 仑 压力 ,一般 作 为 反 爬 虫 组 合 技术 的 第 一 步 。 

在 识别 出 访问 请 求 IP 与 时 间 间 隔 的 异 凋 后 ,可 以 采用 更 多 的 方法 进一步 确认 是 
人 否 为 息 忠 ,也 可 以 为 误伤 正常 访问 的 情 帝 留 一 个 处 理 途径 。 


2. 通过 Header 内 容 识 别 


对 访问 请 求 的 Headers 信息 进行 分 析 , 主要 是 分 析 来 源 页 面 (referer) 与 客户 端 
标识 (User-Agent) 是 否 在 合法 范围 内 ,也 可 以 分 析 Headers 内 的 其 他 数据 ,例如 页 面 
有 效 期 .HOST 地 址 等 信息 的 有 效 性 。 

简单 的 爬虫 一 般 会 使 用 Headers-Less 浏览 器 或 伪造 Headers 信息 来 发 送 页 面 
请 求 ,前 者 是 无 Headers ,后 者 通常 是 随意 设置 某 些 属性 值 导 致 的 。 爬 虫 的 Header 
设置 比较 简单 ,一 般 不 会 根据 访问 页 面 的 不 同 专门 切换 ,因此 可 能 会 出 现 重 复 等 情 
况 ,一 旦 发 现 Header 异 笛 , 则 可 以 识别 为 爬虫 。 


3. 通过 cookies 信息 识别 


通过 在 cookies 中 加 和 多 组 身份 信息 ,每 次 请 求 要求 进 行 验证 ,可 以 拦截 无 
cookies 的 疏 虫 以 及 采用 了 随机 代理 但 未 正确 获取 cookies 的 疏 虫 。 当 然 ,cookies 的 
验证 也 可 能 导致 正常 用 户 在 登录 和 请 求 时 速度 变 慢 。 


4. 通过 验证 码 识 别 


验证 码 的 形式 多 种 多 样 ,主要 的 意图 是 通过 验证 但 的 方式 判断 请 求 痢 是 人 还 是 
机 大 ,也 能 够 通过 验证 人 码 增 加 采集 的 难度 、 降 低 有 采集 的 频 度 。 通 常 采用 的 方式 有 图 形 
文字 验证 .行为 动作 验证 .声音 验证 和 第 三 方 验证 等 。 


s。 通过 对 客户 端 是 否 支 持 JS 的 分 析 来 识别 


客户 闪 的 JS 文 持 情况 可 以 使 用 < noscript > 标签 判断 ,能 用 于 搓 稚 不 文 持 JS 或 者 
不 进行 J 解析 的 爬 生 。 通 稼 的 浏览 融会 加 载 JS 脚本 ,并 且 不 会 触发 < noscript > 标 
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等 ,而 非 浏 览 古 模拟 的 爬虫 由 于 不 加 载 JS 脚本 ,所 以 会 导致 < noscript > 标签 航 触 发 ， 
进而 使 服务 大 能 够 判定 访问 非法 。 


6. 通过 是 否 遭 循 Robots 协议 来 识别 是 否 为 友好 的 疏 虫 


通 笛 可 以 根据 Robots 协议 的 脖 守 情况 判断 是 否 为 友好 的 爬虫 。 具 体 方法 比较 
简单 , 即 在 robots. txt 文件 内 配置 Disallow 策略 ,例如 "Disallow:yadmin/”, 当 疏 虫 访 
问 " /admin/ ”中 的 文件 时 则 可 以 判断 爬虫 为 不 友好 的 爬虫 。 同 时 ,根据 3.3 克 的 擂 
述 ,可 以 进一步 根据 Robots 规范 中 的 抓 取 延 时 (Crawl-delay) .访问 时 段 (Visitrtime) 
和 抓 取 频率 (Requestrrate) 来 进一步 检查 爬虫 行为 是 否 友 好 。 


对 于 只 抓 取 Web 页 面 中 文本 的 爬虫 而 言 , 它 为 了 提高 抓 取 歼 率 不 会 再 从 页 面 中 
提取 图 片 等 黄 源 的 超 链 接 ,然后 再 回 服务 表 请 求 图 片 。 根 据 这 个 特征 , Web 服务 化 可 
以 对 菏 个 请 求 进行 跟 中 ,检测 其 是 否 对 页 面 中 的 图 片 等 竣 源 进行 请 求 。 如 果 没 有 , 则 
是 爬虫 的 可 能 性 会 比较 大 。 

震 要 进一步 说 明 的 是 ,由 于 训 览 全 允许 进行 个 性 化 配置 等 原因 (例如 用 户 可 能 会 
选 挤 只 浏 览 文本 ,而 不 在 浏览 耸 中 显示 图 片 ), 上 面 担 到 的 各 种 检测 爬虫 的 依据 实际 
上 都 难以 获得 100 为 的 准确 性 。 因 此 也 有 一 些 人 研究 使 用 分 类 天 等 局 级 技术 ,将 这 些 特 
征 综合 起 来 ,同时 使 用 多 种 特征 来 刻画 一 个 HTTP 请 求 , 并 在 人 工 标注 的 基础 上 使 
用 SVM、KNN 以 及 浴 度 学 习 来 训练 分 类 青 。 这 里 然 比 单个 特征 更 有 效 , 但 是 这 种 方 
法 使 得 服务 融 闪 的 运 迪 成 本 和 负担 增加 了 很 多 ,中 小 型 Web 网 站 是 否 采 纳 还 需要 做 
更 全 面 的 评估 。 


10.2.2 疏 虫 阻 断 技 术 


通过 前 面 的 方法 识别 并 标记 爬虫 后 ,网 站 通 第 会 未 取 各 种 宵 略 来 阻 断 普 意 爬虫 
访问 ,主要 的 手段 有 茶 止 访问 .增加 采集 难度 .二 次 验证 .使 用 动态 页 面 等 ,以 下 分 别 


介绍 。 
1. 通过 非 200/304 的 Response Status 禁止 访问 


例如 ,返回 表示 异常 的 HTTP Status Code:404/403/500 等 ,相当 于 直接 告知 的 


虫 已 经 被 封禁 。 

本 方法 的 实现 比较 简单 ,在 大 部 分 服务 端 代 码 中 只 需要 对 标记 为 恶意 爬虫 的 访 
问 线程 的 请 求 return 相应 的 Status Code 即 可 ,例如 在 Python 的 django 框架 中 只 需 
一 癸 return HTTP 404。 


2， 封禁 IP( 或 IP 段 ) 的 访问 权限 


目前 ,服务 兹 的 防火 墙 以 及 软件 环境 大 部 分 部 具有 防止 恶意 攻击 的 功能 ,可 以 实 
现在 一 定时 间 段 内 限制 特定 的 IP( 或 IP 段 ) 的 访问 ,或 永久 禁止 某 IP( 或 IP 段 ) 的 访 
问 。 其 结果 是 使 用 特定 IP 地 址 段 的 客户 奖 访 问 服 务 天 时 提示 无 法 连接 或 连接 拒绝 。 


3. 使 用 验证 码 或 天 键 信 息 图 片 化 增加 采集 难度 


在 判断 为 朴 虫 的 情况 下 ,服务 大 生成 验证 但 图 片 并 推送 给 客户 靖 , 和 要求 输 入 验证 
但 进行 进一步 验证 。 帮 在 一 定时 间 内 不 能 够 通过 验证 , 则 确认 为 爬虫 。 

有 些 网 站 将 页 面 上 的 重要 信息 (例如 商品 价格 ,型 号 等 信息 ) 以 图 片 形 式 显 示 在 
页 面 上 ,而 非 文字 形式 ,这样 爬虫 来 集 这 些 商 品 信 息 时 需 归 进行 二 次 请 求 , 并 且 需 要 
对 采集 到 的 图 片 使 用 OCR 之 关 的 技术 识别 其 中 的 文字 。 这 使 得 爬虫 程序 的 复 滋 度 
大 大 增加 ,让 息 虫 程序 知 难 而 退 。 


4. 使 用 页 面 异 步 加 载 增加 采集 难度 


页 面 异 步 加 载 一 般 采 用 Ajax 方式 ,来 用 寞 步 加 载 的 方式 能 够 在 页面 端 进行 一 些 
内 容 混 清 等 操作 。 这 样 的 方式 可 以 使 不 文 持 JS 的 爬虫 全 部 无 效 , 而 文 持 JS 的 爬虫 
需要 解析 Ajax 的 代 人 码 和 执行 逻辑 ,并 进行 进一步 交互 ,获取 展示 的 数据 信息 ,才能 还 
原 出 数据 。 这 种 方式 实际 上 古 通 过 增加 采集 过 程 的 复杂 上 度 变 相 降 低 息 虫 采 集 的 
对 于 服务 端的 设计 ,可 以 通过 Ajax 架构 的 JS 和 框架 进行 前 问 页 面 的 架构 演 染 , 表 
过 异步 加 载 回 服务 天 请 求 需 要 展示 的 数据 。 


s。 动态 调整 页 面 结 构 


动态 调整 页 面 结 构 的 作用 是 增加 采集 者 进行 Web 页 面 分 析 人 处 理 的 难度 ,而 非 蔡 
正 朴 里 。 当 存在 较 高 朴 虫 访问 的 情 襄 出 现时 ,可 以 通过 动态 改变 HTML 页 面 的 文档 
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结构 来 使 采集 者 设置 好 的 解析 策略 失效 ,进而 影响 其 采集 进程 ,甚至 令 怜 虫 放 弃 
抓 取 。 

最 简单 的 实现 是 通过 改变 、 更 换 HTML 中 的 < tab>、< div>、<ul> 等 标签 或 者 其 
ID、CSS 属性 等 内 容 , 使 得 爬虫 的 页 面 分 析 逻 辑 失 效 。 以 下 是 随机 生成 DIV 的 id 的 
样 例 。 


import random 
div_ id= "r div "+ str(random. randint(0, 65535)) 


6. 设置 密 缸 干扰 肘 虫 行为 


设置 埃 鲍 的 目的 是 吸引 并 使 用 密 锣 干扰 采集 者 ,让 采集 者 误 以 为 来 集 到 了 数据 ， 
而 实际 上 采集 到 的 可 能 古 大 量 的 垃圾 数据 ,这 个 方法 逢 要 有 和 蜜 色 服 务 各 的 资源 和 市 
锅 开 销 。 引 导 疏 虫 进入 芍 厅 的 方式 有 很 多 ,例如 设置 干扰 字段 、 使 用 放置 在 不 可 见 
DIV 中 的 超 链 接 .在 验证 非 人 为 行为 后 直接 返回 垃圾 数据 等 。 
此 外 ,还 不 断 有 新 的 反 爬 虫 技 术 出 现 , 但 本 质 都 是 验证 行为 是 否 来 目 于 人 ,进而 
对 访问 者 非 人 类 的 行为 进行 进一步 限制 ,并 减少 对 正常 Web 访问 者 的 干扰 。 


10.3 反 反 有 筑 虫 技术 


在 大 数据 时 代 , 数 据 信息 的 来 源 已 经 不 仅仅 是 那些 门户 网 站 和 其 中 的 超 链 接 , 而 
是 切切 实 实 的 每 个 用 户 以 及 他 们 在 不 同 站 点 上 留 下 的 各 种 痕迹 和 各 种 类 型 的 数据 ， 
这 些 数 据 之 间 有 着 复杂 的 逻辑 关系 ,同时 还 在 不 断 更 新 变化 之 中 。 在 这 样 的 环境 和 
前 提 下 ,依赖 数据 提供 商 提供 数据 很 难 满足 人 们 对 数据 的 需求 ,主动 使 用 爬虫 技术 进 
行 数据 的 采集 和 深入 的 探索 是 十 分 必要 和 重要 的 。 

数据 采集 的 目标 站 点 众多 ,它们 的 数据 隐藏 深 度 、 方 法 不 尽 相 同 , 服 务 种 类 能力 
和 策略 也 不 尽 相 同 ,在 爬 取 数据 时 不 免 会 碰 到 各 种 反 疏 虫 技术 ,尤其 是 某 些 信息 隐藏 
在 站 点 比较 深 的 地 方 , 例 如 涉及 社交 网 络 上 用 户 的 个 人 信息 或 社会 关系 等 方面 的 内 

容 , 某 些 商 业 站 点 上 的 评论 信息 等 。 因 此 对 于 采用 了 反 息 忠 技 术 的 站 点 的 数据 ,需要 
在 了 解 反扑 虫 的 基本 技术 和 思路 的 前 提 下 ,在 进行 数据 采集 时 通过 有 针对 性 的 技术 
手段 进行 反 反 息 虫 ,以 获得 期 望 的 目标 数据 。 从 男 一 角度 看 ,对 于 Web 服务 需 管 
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员 和 设计 人 员 来 说 ,也 非常 有 必要 深入 了 解 候 虫 还 有 哪些 突破 封禁 的 手段 ,以 便 更 好 
地 优化 自己 的 反 疏 里 技术 。 

目前 , 稼 见 的 反 反 爬虫 技术 的 基本 目标 是 尽 可 能 呐 实 地 模拟 用 户 访 问 ,主要 有 以 
下 几 种 技术 方法 : 


1. 针对 IP 与 访问 间隔 限制 


不 使 用 真实 下, 爬虫 使 用 代理 服务 天 或 者 云 主 机 等 方式 进行 IP 的 切换 ,需要 注 
意 的 是 ,当前 有 一 些 站 点 对 云 服务 或 代理 的 IP 端 已 经 进行 了 限制 。 此 外 ,还 要 在 需 
要 登录 的 情况 下 准备 多 个 账号 , 以便 进行 切换 。 在 Python 中 使 用 requests 的 
session. get 方法 调用 proxies 实现 通过 代理 进行 来 集 的 基本 代 人 码 如 下 : 


import random 
import requests 
proxies = 1 
'http': "http://8.8.8.8:8888", 
"https"': "http://4.4.4.4:84984", 
# 可 以 随机 为 Session 分 配 绑 定 一 个 代理 服务 器 
} 
worker session = requests. Session() 
r= worker session. get (url, proxies = proxies, verify = False, stream = True, headers = 


headers, timeout = 5) 


2. 针对 Header 的 内 容 验 证 


使 用 Selenium 或 其 他 内 骸 浏 览 副 进行 浏览 瘟 的 访问 和 模拟 ,同时 构造 合理 的 
Headers 信息 ,主要 包括 User-Agent 和 Hosts 信息 。 使 用 Selenium 会 调用 浏览 天， 
在 下 面 的 例子 中 是 调用 Chrome 进行 访问 ,浏览 华 的 调用 可 以 实现 Headers 信息 的 
目 动 完 成 。 

当然 也 可 以 根据 规则 目 行 组 著 Headers 信息 ,在 爬虫 实现 中 尽 可 能 完整 地 填写 
Headers 的 各 个 属性 值 。 

coding:utf—8 

from selenium import webdriver 

from selenium. webdriver. common. action chains import ActionChains #5| 人 人 ActionChains 鼠标 

操作 类 


from selenium. webdriver. common. keys import Keys #3 引 | 入 keys 类 操作 


import time 
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def s(int): 

time. sleep( int) 
browser = webdriver. Chromel( ) 
browser. get('http://www. xxxxx .com') 
browser. maximize window() # 最 大 化 浏览 器 
browser. find element by id('r div'). send keys(u'zeng') 
browser. find element by id('r div').get attribute( 'uid') 
browser. find element by id('r div').size # 打印 输入 框 的 大 小 
browser. find element by id('r div').click() 


time. sleep(3) 


目 行 组 装 的 Headers 信息 可 以 通过 Python 的 requests 库 发 送 给 服务 天 。 


3， 针对 cookies 验证 


使 用 不 同 的 线程 来 记录 访问 的 信息 ,例如 Python 中 的 requests. session ,为 每 个 
线程 保存 cookies ,每 次 请 求 的 Header 均 附 上 正确 的 cookies, 或 者 按照 站 点 要 求 正确 
使 用 cookies 内 的 数据 (例如 使 用 cookies 内 的 指定 密 钥 进行 加 密 校 验 )。 

# 每 个 线程 均 保留 cookies 信息 

worker session = requests,. Session() 

lJog in result = worker session.post(url, data= login info, headers = headers) 

_Cookies = log in result. cookies 


r = worker session.get(url, proxies = proxies, cookies = cookies, verify= False, stream = 


True, headers = headers, timeout = 5) 


4， 针对 验证 码 


当前 Web 网 站 推送 的 验证 码 主 要 分 为 4 类, 即 计算 验证 码 、 滑 块 验证 码 、 识 图 验 
证 但 .语音 验证 码 ,主流 的 验证 码 破 解 主要 有 两 种 , 即 机 需 图 像 识别 与 人 工 打 码 , 此 外 
还 可 以 使 用 浏览 器 插件 绕 过 验证 码 的 类 似 技术 。 

识别 图 像 验 证 码 通 常 包含 灰 度 处 理 、 二 值 化 .去 除 边 框 降 品 .切割 学 符 或 者 倾斜 
度 校正 .训练 字体 库 以 及 识别 每 步 又 。 

机 器 图 像 识 别 用 到 的 主要 的 Python 库 是 Pillow(Python 图 像 处 理 库 ) .OpenCV 
(高 级 图 像 处理 库 ) 和 pytesseract( 识 别 库 ) 。 其 中 ,Pillow 支持 多 种 格式 的 图 像 编 码 
方式 ,并且 可 以 做 一 些 变形 等 图 像 处 理 ; pytesseract 是 一 个 基于 Google's Tesseract- 
OCR 的 独立 封装 包 , 它 能 够 识别 图 片 文 件 中 的 文字 ,并 作为 返回 参数 返回 识别 结果 。 
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5. 针对 页 面 异 步 加 载 与 客 忆 端 J 支持 判断 


可 以 使 用 Selenium 或 PhantomJS 进行 JS 解析 ,并 执行 页 面 内 容 获 取 所 需要 的 
正确 的 JS 方 法/ 请求。 当然 也 可 以 使 用 真实 的 浏览 各 作为 采集 工具 的 基础 ,例如 封 
装 一 个 目 定 义 的 Firefox 浏览 右 , 以 插件 的 形式 实现 采集 工具 。 


6. 针对 动态 调整 页 面 结构 


对 于 这 种 方式 的 反 疏 虫 技 术 ,最 好 的 办 法 是 先 采 集 上 页面 ,然后 根据 采集 到 的 页 面 
进行 分 类 处 理 。 同 时 ,在 爬虫 程序 设计 中 ,进行 必要 的 异 笛 处 理 也 有 助 于 应 对 这 种 阻 
冉 措施 。 动 态 调整 结构 的 页 面 也 可 以 采用 Selenium 加 载 浏 虎 硕 ,按照 信息 的 区 域 答 
试 采 集 。 此 外 还 可 以 笠 试 使 用 正则 表达 式 ,将 结构 中 的 随机 因 了 于 握 除 。 


7. 针对 蜜 把 方式 的 拦截 


在 这 种 情况 下 只 有 一 个 宋 略 ,爬虫 在 解析 出 一 个 超 链 接 后 不 要 春 急 进入 超 链接 。 
首先 分 析 密 多 的 线 构 ,判断 是 使 用 表单 隐藏 字段 .使 用 隐 纠 的 页 面 或 痢 是 使 用 其 他 方 
法 的 汉 色 ,分 析 到 措 第 之 后 ,在 提交 表单 和 米 集 页 面 时 统 过 密 把 。 

总 之 ,使 用 了 反 反 爬虫 宽 略 和 技术 后 ,原来 简单 的 爬虫 结构 变 得 复 洒 了 


思考 题 


So 


. 为 什么 Web 服务 器 要 反 有 息 虫 ? 

.爬虫 和 浏览 器 访问 可 能 存在 的 主要 差别 有 哪些 ? 

. Web 服务 器 有 哪些 检测 爬虫 请 求 的 方法 ? 

4. Web 服务 器 有 哪些 技术 可 以 阻 断 疏 虫 请 求 ? 

5. 针对 Web 服务 器 的 朴 虫 检测 技术 ,在 朴 虫 程序 设计 中 需要 注意 哪些 问题 ? 
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草 介 绍 了 对 采集 到 的 Web 信息 内 容 进行 处 理 与 挖掘 所 需要 的 技术 ,这 和 是 爬虫 
大 数据 采集 应 用 的 基础 。 本 章 主 要 针对 文本 型 这 种 典型 的 非 结构 化 信息 介绍 了 各 种 
预 处 理 技术 ,文本 分 类 .主题 建 模 技术 和 可 视 化 技术 ,并 介绍 了 用 于 这 些 处 理 的 主要 
开源 库 和 工具 。 


11.1 文本 预 处 理 


11.1.1 词汇 切 分 


词汇 的 切 分 对 于 中 文 文本 处 理 来 说 尤为 关键 , 它 是 文本 处 理 挖掘 的 基础 。 例 如 
在 文本 分 类 ,文本 聚 类 ,话题 分 析 等 应 用 中 ,分 词 剖 古 一 项 基础 工作 。 其 目的 就 是 对 
于 给 定 的 一 段 文本 ,将 词汇 逐个 切 分 开 来 。 对 于 这 方面 的 研究 目前 也 比较 成 熟 , 已 经 
形成 了 两 大 类 主要 方法 , 即 基 于 词典 的 分 词 和 基于 统计 的 分 词 。 这 两 种 方法 定义 词 
的 角度 完全 不 同 , 基 于 词典 的 分 词 方法 认为 只 要 将 一 个 字符 串 放 入 词典 束 可 以 当 作 
词 ,而 基于 统计 的 分 词 方 法 认为 右 干 个 字符 只 要 按照 一 定 规则 结合 在 一 起 的 使 用 频率 
足够 局 就 是 一 个 词 。 这 两 种 不 同 的 构 词 观点 也 就 导致 了 两 种 方法 的 实现 有 很 大 老 异 。 
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1. 词汇 切 分 的 一 般 流 程 


分 词 的 任务 是 对 输入 的 句子 进行 词汇 切 分 ,这 是 对 于 中 文 而 言 。 基 本 的 分 词 工 
作 是 切 分 出 每 个 词汇 ,但 是 词 对 应 的 属性 (例如 词性 .语义 
选项 等 ) 与 词汇 关系 密切 ,因此 也 经 常 把 此 类 处 理 在 分 词 处 
理 中 一 起 完成 。 由 于 分 词 过程 中 会 存在 一 定 的 歧义 ,通常 
需要 在 切 分 过 程 中 解决 这 些 歧义 问题 。 总 体 而 言 ,句子 词 
汇 切 分 的 流程 包括 三 大 步骤 ,如 图 11-1 所 示 。 

第 一 个 步骤 是 对 输入 的 中 文 文档 进行 预 处 理 , 得 到 单 
个 中 文 短 句 的 集合 。 这 一 步 主要 通过 标点 符号 (例如 逗号 、 
句号 .感叹 号 .问号 等 ) 将 中 文 文档 进行 切 分 ,缩小 中 文 分 词 
的 句子 长 度 ， 

第 二 个 步骤 对 每 个 短 句 进行 词汇 切 分 , 即 运 用 一 定 的 
分 词 算法 将 其 中 的 词汇 切 分 开 来 。 在 这 个 过 程 中 需要 考虑 0 
到 短 句 中 除了 汉字 以 外 ,可 能 存在 英文 单词 (或 缩写 ) .由 连 字 符 连接 的 不 同 单元 、 由 
斜 线 连 接 的 不 同 单元 .数字 等 ,因此 需要 考虑 这 些 非 词汇 信息 的 判断 . 

第 三 个 步 又 是 进行 分 词 结果 的 优化 ,主要 是 考虑 到 分 词 中 可 能 存在 错误 ,对 此 类 
错误 进行 识别 .纠正 。 该 步 的 主要 任务 之 一 就 是 歧义 的 消解 。 

在 大 数据 背景 下 文本 变 得 更 加 复杂 ,文本 中 会 包含 大 量 的 非 中 文字 符 , 例 如 中 英 
文 混合 .包含 HTML 语言 文本 .新 词 .繁体 简体 混合 等 ,所 以 在 文档 预 处 理 阶 段 要 将 
含有 HTML 语言 的 文本 从 原始 文档 中 提取 出 来 ,将 繁体 简体 字 统一 转化 为 简体 字 ， 
这 样 才能 够 更 好 地 提高 分 词 算法 的 性 能 。 常 用 的 中 文字 符 编码 有 gb2312 .unicode、 
utf-8 等 ,它们 之 间 的 转换 已 经 在 第 2 章 介绍 过 ,这 里 不 再 歼 述 。 当 然 ,目前 有 很 多 工 
具 实 现 了 字符 编码 之 间 的 转换 ,例如 可 以 采用 文本 编辑 器 Notepad++, 其 中 具有 
ASCII 码 、gb2312、unicode、utf-8 等 编码 转换 的 功能 。 


对 句子 进行 短 句 切 分 


对 每 个 短 句 进行 词汇 切 分 


点 义 识别 、 消 解 等 


2. 基于 词典 的 分 词 方法 


基于 词典 的 分 词 方法 , 即 通过 设 定 词典 ,按照 一 定 的 字符 串 匹 配方 法 把 存在 于 词 
典 中 的 词 从 句子 中 切 分 出 来 。 该 方法 有 3 个 基本 要 素 , 即 分 词 词典 、 文 本 扫描 顺序 和 
匹配 原则 。 由 于 词典 中 的 每 一 项 邦 是 词汇 ,所 以 分 词 词典 的 项 数 会 非 第 大 , 称 之 为 元 
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分 大 的 词典 。 文 本 的 扫描 顺序 有 正 向 扫描 、 道 向 扫描 和 双向 扫描 ,匹配 原则 主要 有 最 
大 匹配 最 小 匹配 、 逐 词 匹 配 和 最 佳 匹配 。 基 于 文本 扫 摘 顺 友 和 匹配 原则 可 以 组 合 出 
多 种 方法 ,例如 正 向 最 大 匹配 、 正 向 最 小 匹配 、 道 向 最 大 匹配 、 道 向 最 小 匹配 等 。 本 节 
将 详细 介绍 正 向 最 大 匹配 法 ,并 简单 介绍 逆向 最 大 匹配 法 。 

所 谓 最 大 匹配 ,就 是 优先 匹配 最 长 词汇 , 即 每 一 句 的 分 词 结果 中 的 词汇 总 量 要 最 
少 。 正 向 最 大 匹配 分 词 在 实现 上 可 以 采用 减 字 法 。 

正 问 减 字 最 大 匹配 法 首先 需要 将 词典 中 的 词汇 按照 长 度 从 大 到 小 的 顺序 排列 ， 
然后 对 于 待 切 分 的 中 文字 符 串 做 如 下 处 理 : 

(1) 将 字符 串 和 词典 中 的 每 个 词汇 逐一 进行 比较 。 

(2) 如 果 匹 配 到 , 切 分 出 一 个 词汇 , 转 步 又 (5) 执 行 。 

(3) 否则 从 字符 串 的 末尾 减 去 一 个 字 。 

(4) 如 果 剩 下 的 字符 串 只 有 一 个 字 , 则 切 分 出 该 字 。 

(5) 将 剩 下 的 字符 串 作 为 新 的 字符 串 , 转 步 又 (1) 执 行 ,直到 剩 下 的 字符 串 长 度 为 0。 

以 字符 串 “ 今 天 是 中 华人 民 共 和 国 获 得 奥运 会 举办 权 的 日 子 ”为 例 来 说 明 上 述 过 
程 。 假 设 词典 充分 大 ,每 次 与 词典 相 比 较 的 字符 串 s 依次 如 下 ,可 见 在 第 20 次 比较 
时 获得 词汇 “今天 ”, 在 第 39 次 比较 时 无 法 匹配 而 输出 单字 "是 ”。 


[1]s = “今天 是 中 华人 民 共和 国 获得 奥运 会 举办 权 的 日 子 ” 
[2]s =“ 今 天 是 中 华人 民 共和 国 获 得 奥运 会 举办 权 的 日 ” 
[3]s =“ 今 天 是 中 华人 民 共和 国 获得 奥运 会 举办 权 的 ” 


20 = 
[21]s=“ 是 中 华人 民 共和 国 获得 奥运 会 举办 权 的 日 子 ” 
[22]s =“ 是 中 华人 民 共 和 国 获得 奥运 会 举办 权 的 日 ” 


[ 39 ] s 三 “是 ?” 
[40]s = “中华 人民 共 和 国 获得 奥运 会 举办 权 的 日 子 ” 


[51]s =“ 中 华人 民 共 和 国 ” 
[52]s =“ 获 得 奥运 会 举办 权 的 日 子 ” 


[61]s = “获得” 


显然 ,算法 在 性 能 上 还 有 很 多 需要 改进 的 地 方 。 如 采 考 虑 到 词典 中 的 词 条 有 一 
定 长 度 , 即 可 以 假设 最 长 词 包 售 的 汉字 个 数 是 len,; 则 在 最 大 正 疝 匹配 算法 过 程 中 就 
可 以 每 次 取 len 长 度 的 字符 串 来 比较 。 因 此 每 次 与 词典 相 比 较 的 字符 溃 s 依次 如 下 
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[1]s =“ 今 天 是 中 华人 民 ” 
[6]s =“ 今 天” 


[71s =“ 是 中 华人 民 共 和 ” 


有 
[14]s= “中 华人 民 共 和 国 ” 
[15]s = “获得 奥运 会 举办 ” 


[20]s =“ 获 得 ” 
[21]s =“ 奥 运 会 举办 权 的 ” 


除了 正 癌 减 字 最 大 匹配 法 外 ,还 有 正 同 增 子 最 小 匹配 法 等 ,算法 在 思路 上 基本 相 
同 , 只 是 采用 逐步 增加 字符 的 方法 构成 新 的 字 串 ,再 去 匹配 。 如 有 果 词 典 中 的 词汇 长 度 
大 部 分 部 比较 短 ,来 用 增 字 法 可 以 在 一 定 程 度 上 减 小 算法 复 林 上 度 。 

逆 回 最 大 匹配 法 是 为 一 类 基于 词典 的 切 分 方法 ,该 方法 的 分 词 过 程 与 正 问 最 大 
匹配 法 类 似 , 不 同 的 是 从 甸子 末尾 开始 处 理 ,每 次 匹配 不 成 功 时 去 挥 的 是 前 面 或 左边 
的 一 个 汉字 。 逆 同 最 大 匹配 法 同样 也 有 增 字 法 和 减 字 法 两 种 实现 方式 。 

按照 目前 基于 一 些 请 料 的 词汇 切 分 实验 结 朱 , 逆 问 最 大 匹配 的 切 分 方法 得 到 的 
错误 率 是 1/245 ,而 正 回 最 大 匹配 的 切 分 方法 的 错误 率 是 1/169。 切 分 中 的 错误 源 于 
词汇 之 间 和 字符 的 重合 ,例如 对 于 “局 长 的 房间 内 存储 贯 壬 的 贡 金 ”这 人 名 文本 ,采用 正 问 
最 大 匹配 扫描 得 到 的 络 末 是 "局 长 /的 /房间 /了 内存/ 储 / 贯 重 /的 / 足 金 ”得 到 了 错误 的 
簿 来 ,而 米 用 逆 癌 最 大 匹配 扫描 得 到 的 结案 是 局 长 /的 /房间 /内 /存储 /如 重 /的 / 黄 
金 , 疆 条 正 确 。 

尽管 目前 在 中 文 文本 的 切 分 方面 已 经 能 够 取得 99% 以 上 的 正确 率 , 但 是 由 于 词 
汇 切 分 并 不 是 数据 分 析 的 最 终结 有 末 , 所 以 词汇 切 分 识别 中 的 错误 会 在 上 层 应 用 中 得 
到 放大 ,从 而 造成 更 大 的 错误 。 例 如 上 面 的 句子 ,如 果 切 分 出 "内存 ”这 个 词汇 ,那么 
在 上 层 的 分 析 挖 掘 应 用 中 就 可 能 通过 合 义 拓展 发 现 该 句子 与 计算 机 ”类 的 主题 相 
天 。 目 前 还 有 不 少 研究 在 试图 提升 词汇 切 分 的 准确 性 ,特别 是 随 着 闪 上 度 学 习 的 流行 ， 
各 种 神经 网 络 结构 都 可 以 用 来 进行 中 文 词 汇 的 切 分 。 

在 基于 词典 的 分 词 方法 中 , 词 虚 对 于 分 词 算 法 有 痢 重要 的 影响 。 词 典 中 词汇 的 
完整 性 .词汇 在 词典 中 的 排列 顺序 .专业 词汇 与 大 众 词汇 .词汇 的 长 度 .新 闻 以 及 词典 
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中 词汇 的 使 用 频率 .词汇 的 系 引 结构 等 祁 会 对 分 词 算法 的 准确 性 和 效率 产生 很 大 影 
啊 。 这 些 因 系 的 影 啊 及 处 理 说 明 如 下 ,大 家 可 以 进一步 探讨 。 

(1) 针对 互联 网 大 数据 ,网 络 上 的 新 词 频 楷 出 现 , 一 些 领域 专业 词汇 也 都 是 典型 
的 新 闻 ,如 条 没有 及 时 更 新 , 驶 会 产生 很 多 的 单字 切 分 或 销 误 ,因此 词典 的 及 时 更 新 
驶 变 得 很 重要 。 

(2) 词典 中 词汇 的 排列 顺 厅 除了 按照 词汇 的 长 上 度 排 列 外 ,还 可 以 按照 词汇 的 使 
用 频率 来 排列 ,这 就 是 最 佳 匹 配 的 方法 。 统 计 每 个 词汇 在 实际 使 用 中 的 频率 ,按照 从 
局 到 低 的 顺 友 排列 词典 ,这 样 在 进行 切 分 时 经 第 使 用 的 词汇 就 能 够 被 快速 匹配 到 ,而 
不 必 扫 描 整 个 词典 。 但 是 使 用 频率 的 统计 本 号 也 需要 有 一 定 的 请 料 , 这 些 请 料 可 以 
来 目 人 工 切 分 绩 全 或 培 言 学 的 研究 成 末 。 

(3) 考虑 多 种 排序 规则 相 结合 的 可 能 性 ,根据 语言 学 的 Zipf 定律 ,大 部 分 词汇 的 
长 度 并 不 长 。 例 如 长 度 为 2 的 词汇 在 实际 使 用 中 就 很 多 ,这 部 分 词汇 如 末 单 纯 地 按 
照 长 度 来 决定 其 在 词典 中 的 位 置 ,显然 是 不 合适 的 。 因 此 可 以 同时 考虑 其 使 用 频率 ， 
在 长 度 相 等 的 条 件 下 按照 使 用 频率 进行 排序 。 

在 词典 的 实现 层面 需要 考 夸 更 多 因 系 ,例如 词典 很 大 以 至 于 无 法 一 次 性 妆 载 到 


构 、 基 于 整 词 二 分 的 分 词 词典 结构 、 基 于 Trie 索引 树 的 分 词 词典 结构 等 。 

有 订 线 性 词典 结构 是 最 简单 的 词 与 结构 ,词典 正文 是 以 词 为 单位 的 有 订 表 ,在 初 
始 化 时 读 取 到 内 存 中 ,在 词典 正文 中 通过 整 词 二 分 进行 定位 。 这 种 词典 结构 的 优点 
是 算法 简单 ,多 于 实现 .有效 空 间 使 用 座高 ; 缺点 是 查找 效率 低 , 删 除 或 插 人 的 更 新 
代价 高 。 这 种 词典 结构 在 沫 加 新 刘 时 需要 移动 词典 中 的 词 条 来 你 证 有 订 性 , 当 词 与 
相当 大 时 需要 花费 很 长 的 时 间 。 

基于 整 词 二 分 的 分 词 词典 第 构 古 一 种 第 用 的 分 词 词典 结构 ,其 结构 分 为 3 级 ,前 
两 级 为 索引 ,如 图 11-2 所 示 ,除了 存储 词汇 字符 串 外 ,还 需要 一 些 额 外 的 标志 信息 。 

词典 正文 是 以 词 为 单位 的 有 友 表 , 词 索 引 表 是 指 问 词典 正文 中 每 个 词 的 指针 表 ， 
通过 首 字 艇 列表 的 哈 布 定 位 和 词 索 引 表 确定 指定 词 在 词典 正文 中 的 可 能 位 置 范 围 ， 
进而 在 词典 正文 中 通过 整 词 二 分 进行 定位 。 

基于 词典 的 分 词 拭 法 具有 方法 价 早 .多 于 实现 等 优点 ,同时 也 存在 着 较 多 缺 后 ， 
例如 匹配 速度 慢 、 存 在 上 收 义 和 错误 切 分 、 没 有 统一 标准 的 词 集 、 没 有 日 我 补充 和 日 我 
学 习 的 能 力 , 以 及 不 同 词典 会 产生 不 同 的 卜 义 。 
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百 字 hash 表 

a 904 1982 3603 

人 口 项 个 娄 证 
a 


闻 且 正文 盾 针 | | | 


图 11-2 基于 整 词 二 分 的 分 词 词典 结构 


3. 基于 统计 的 分 词 方法 


由 于 基于 词典 的 分 词 方法 尚 存 在 一 些 问 题 ,目前 实际 使 用 的 中 文 分 词 方 法 则 综 
合 运用 了 多 种 算法 和 模型 ,其 中 一 类 最 第 用 的 是 基于 各 种 统计 模型 的 分 词 方法 。 这 
种 方法 利用 词汇 使 用 中 的 统计 特性 进行 分 词 ,归纳 起 来 这 些 统计 特性 主要 有 : 字 串 
的 使 用 频率 、 每 个 字 在 词汇 中 的 位 置 特征 等 。 下 面 介 绍 一 种 典型 的 基于 序列 标注 的 
统计 分 词 方法 。 

与 一 般 的 统计 分 词 方法 一 样 ,该 方法 由 3 个 步骤 组 成 ,分 别 是 构造 语 料 .训练 模 
型 和 分 词 。 

1) 构造 语 料 

构造 语 料 的 目的 是 为 了 给 后 续 模 型 训练 提供 素材 。 为 此 ,需要 先 定义 4 个 标签 ， 
即 : B(Begin) 表示 一 个 字 位 于 词 的 开始 ; M(Middle) 表 示 一 个 字 位 于 词 的 中 间 ; 
E(End) 表 示 一 个 字 位 于 词 的 结尾 ; SCSingle) 表 示 一 个 单字 。 

由 于 是 一 种 统计 模型 ,因此 构造 的 语 料 规模 要 尽量 大 ,可 以 利用 现 有 的 一 些 开放 
语 料 。 语 料 的 基本 形式 如 下 : 


复旦 大 学 是 一 所 高 等 院 校 BMMESBEBEBE 


大 数据 技术 的 重点 和 难点 是 非 结构 化 数据 处 理 BMEBESBESBESSBMEBEBE 


其 中 ,每 一 行 右 边 的 编 公 串 古 左边 汉字 串 的 标注 往 宋 , 指 出 每 个 字 对 应 的 标签 ， 
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例如 “复旦 大 学 ”对 应 的 标签 是 *"BMME”。 这 个 步骤 主要 依赖 于 人 工 处 理 ，。 

2) 训练 模型 

训练 模型 的 目的 是 获得 描述 语 料 中 的 字 和 对 应 标签 的 统计 特征 ,可 以 是 标签 和 
字 的 组 合 概 率 、 上 下 文 的 使 用 情况 等 。 以 “大 ” 字 为 例 , 这 类 统计 特征 包括 : 该 字 的 标 
签 是 B、.M.E.S 的 概率 ; 当 后 一 个 字 是 “学 ”的 情况 下 ,“ 大 ” 字 出 现 的 概率 ; 在 前 两 个 
字 是 “复旦 ”的 情况 下 ,“ 大 ” 字 出 现 的 概率 ; 当 后 一 个 标签 是 “E” 的 情况 下 ,“M” 标 签 
出 现 的 概率 。 总 之 ,各 种 统计 特征 都 可 以 ,但 取决 于 所 选择 的 模型 的 描述 能 力 。 

目前 可 以 采用 的 模型 是 隐 Markov 模型 (HMM) 、 条 件 随 机 场 (CRF) 以 及 可 以 自 
动 发 现 特 征 的 RNN、LSTM 等 深度 神经 网 络 。 对 于 HMM 模型 ,其 隐 状 态 是 BM.E 
和 S4 个 ,每 个 隐 状 态 之 间 存 在 概率 转移 ,这 种 概率 转移 可 以 从 语 料 的 标签 序列 中 得 
到 。 模 型 的 输出 状态 是 每 个 字 W, 隐 状态 和 输出 状态 之 间 的 关系 pC(W|1B)、p(W| 
M)、p(W|E) pCW1S) 也 可 以 从 语 料 中 得 到 ,初始 状态 的 分 布 PC(B)、P(M)、P(E) 和 
P(S) 也 可 以 由 语 料 获得 。 

3) 分 词 

在 模型 构建 完成 之 后 ,就 可 以 使 用 模型 来 对 输入 的 句子 进行 词汇 的 切 分 ,具体 计 
算 方法 取决 于 不 同 模型 。 但 对 于 一 个 给 定 的 句子 ,模型 的 输出 都 是 标签 序列 。 对 于 
HMM 模型 来 说 ,可 以 使 用 Viterbi 算法 得 到 输入 序列 ( 即 句 子 ) 对 应 的 最 佳 隐 状态 序 
列 ( 即 标签 序列 ) ,最 后 根据 标签 序列 进行 切 分 。 例 如 ,输入 句子 是 "上海 大 学 学 科 发 
展 得 很 快 ”, 假 如 模型 输出 的 标签 序列 是 “BMMEBEBESBE”, 那 么 相应 的 切 分 结果 就 
是 * 上 海 大 学 /学 科 / 发 展 /得 /很 快 ” 


11.1.2 信用 词 过 小 


售 用 词 在 不 同 的 文本 分 析 任 务 中 有 着 不 同 的 定义 ,在 基于 词 的 检索 系统 中 , 停 用 
词 是 指出 现 频率 太 高 .没有 太 大 检索 意义 的 词 , 例 如 一 个 一 种 .因此 否则、 其 中 等 ; 
在 文本 分 类 中 , 停 用 词 是 指 没有 意义 的 虚词 和 类 别 色 彩 不 强 的 中 性 词 ; 在 自动 问答 
系统 中 , 停 用 词 因 问题 不 同 而 动态 变化 。 所 以 给 定 一 个 目的 ,任何 一 类 词语 都 可 以 被 
选 为 分 用 词 。 

在 文本 分 析 任 务 中 通常 会 去 除 停 用 词 ,例如 在 信息 检索 任务 中 ,对 于 功能 词 和 一 
些 使 用 频率 高 的 词 ,其 使 用 十 分 广泛 ,导致 搜索 引擎 无 法 保证 能 够 给 出 真正 相关 的 搜 
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和 后 林 , 难 以 帮助 缩小 搜索 范围 ,还 会 降低 搜索 效率 ,所 以 去 除 停 用 词 能 够 万 省 存储 
空间 .提高 搜索 效率 。 在 文本 分 类 任务 中 , 停 用 词 由 于 出 现 频率 高 会 寻 致 统计 杭 型 选 
择 的 特征 词 难 以 表示 该 类 别 的 特征 ,从 而 导致 分 类 生来 变 差 。 

目前 ,信用 词 表 有 通用 信用 词 表 和 专用 信用 词 表 之 分 ,其 生成 方法 有 人 工 构 寺 和 
基于 统计 的 方法 两 种 。 实 际 工作 中 所 采用 的 仿 用 词 表 通常 为 通用 集 用 词 表 或 在 其 基 
础 上 进行 增 减 的 俘 用 词 表 。 目 前 网 络 上 有 一 些 公 开 的 售 用 词 表 ,中 文保 用 词 表 有 哈 
工大 停 用 词 表 、 百 度 停 用 词 表 等 。 其 中 ,哈工大 信用 词 表 为 通用 信用 词 表 ,其 信用 词 
比较 全 面 ; 百度 仿 用 词 表 为 专门 进行 信息 检索 的 信用 词 表 。 对 于 器 文 信用 词 表 ,可 
以 到 “http://www. ranks. nl/stopwords” 网 站 去 查找 ,该 网 站 中 有 多 种 圭 言 的 集 用 词 
表 , 但 只 有 器 文集 用 词 表 较 全 面 。 

停 用 词 处 理 在 文本 分 析 任 务 中 是 基础 部 分 ,能 够 提高 分 析 歼 率 与 分 析 绪 有 末 。 停 
用 词 表 要 根据 文本 分 析 任 务 的 特性 来 选择 ,并 且 在 实际 应 用 中 还 要 根据 任务 的 特性 
进行 停 用 词 表 的 增删 工作 。 


11.1.3 词 形 规范 化 


英文 单词 一 般 由 3 个 部 分 构成 , 即 词根 .前 级 和 后 缀 ,其 中 词根 决定 单词 意思 ,前 
级 改变 单词 词义 ,后 级 改变 单词 词性 。 在 进行 英文 文本 处 理 时 ,在 有 些 应 用 中 需要 对 
一 个 词 的 不 同形 态 进行 归并 ,提高 文本 处 理 的 效率 。 例 如 ,词根 run 有 running、ran、 
runner 等 不 同 的 形态 ,词根 处 理 就 是 将 词根 run 的 不 同形 态 running、ran、runner 还 
原 成 词根 run。 

词 形 规范 化 是 指 将 一 个 词 的 不 同形 式 统一 为 一 种 具有 代表 性 的 标准 形式 ( 词 干 
或 原型 ) 的 过 程 。 它 有 两 种 处 理 方式 , 即 词 形 还 原 和 词 干 提取 。 

词 形 还 原 是 把 一 个 任何 形式 的 语言 词汇 还 原 成 一 般 形 式 ( 能 够 表达 完整 语义 )。 
例如 did 还原 成 do,cats 还 原 成 cat。 词 形 还 原 的 方法 有 基于 规则 的 方法 、 基 于 词典 
的 方法 .基于 统计 的 方法 几 种 ,其 中 基于 词典 的 方法 是 目前 应 用 中 的 主流 方法 。 

基于 词典 的 方法 主要 利用 词典 中 的 映射 查找 对 应 的 词 形 的 原型 。 其 原理 较 简 
单 ,但 词 形 还 原 时 需要 更 复杂 的 形态 分 析 , 例 如 需要 词性 分 析 和 标注 。 目 前 大 量 的 词 
形 还 原 工 具 均 是 采用 基于 词典 的 方法 ,借助 现 有 词典 进行 词性 识别 、. 词 形 和 原形 映 
射 。 基 于 词典 的 方法 的 最 大 缺点 是 党 限于 词典 收录 词汇 数量 ,对 于 词典 未 收录 的 词 
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无 法 处 理 。 

词 干 提取 是 抽取 词 的 词 干 或 词根 形式 ,不 要 求 一 定 能 表达 完整 语义 。 例 如 
fishing 抽取 出 fish,electricity 抽取 出 electr。 词 干 提取 的 方法 同样 分 为 基于 规则 的 
方法 、 基 于 词典 的 方法 、 基 于 统计 的 方法 。 其 中 ,基于 规则 的 方法 中 经 典 的 算法 有 
Porter 算法 、Lancaster 算法 、Lovin 算法 .Dawson 算法; 基于 词典 的 方法 则 与 词 形 还 
原 中 基于 词典 的 方法 的 原理 相同 ; 基于 统计 的 方法 主要 用 于 解决 对 词典 中 未 收录 的 
词 进行 词 形 规范 的 问题 ,采用 的 模型 有 n-gram 模型 .HMM 模型 等 。 

词 形 还 原 和 词 干 提取 均 为 将 词 简 化 或 归并 成 基础 形式 ,都 是 一 种 对 词 的 不 同形 
人 态 统 一 的 过 程 , 但 词 形 还 原 主要 是 采用 “转化 ”的 方法 将 词 转化 为 原形 ,而 词 干 提取 主 
要 是 采用 “缩减 ”的 方法 将 词 转换 为 词 干 。 在 实际 应 用 中 , 词 形 还 原 多 用 于 文本 挖掘 、 
自然 语言 处 理 , 用 于 更 为 细 粒 度 、 更 为 准确 的 文本 分 析 与 表达 ; 词 干 提取 被 应 用 于 信 
息 检索 ,用 于 扩展 检索 ,粒度 较 粗 。 

词 形 规范 化 是 信息 检索 系统 及 文本 分 析 过 程 中 必要 的 基础 操作 ,例如 在 信息 检 
索 系 统 中 对 文本 中 的 词 进行 词 干 提取 ,能 够 减少 词 的 数量 ,缩减 索引 文件 所 占 的 空 
间 , 并 使 检索 不 受 输入 检索 词 的 特定 词 形 限制 ,扩展 检索 结果 ,提高 查 全 率 。 在 英文 
文本 分 类 任务 中 , 词 形 还 原 是 一 项 基本 任务 ,名 词 的 单 复数 变化 .动词 的 时 态 变 化 、 形 
容 词 的 比较 级 变化 等 会 导致 词义 相同 但 词 形 不 同 的 情况 ,而 这 些 词 不 应 该 作为 独立 
的 词 来 进行 存储 和 参与 计算 ,所 以 词 形 还 原 是 进行 分 类 任务 中 数据 预 处 
理 的 基本 操作 。 


ee 


11.1.4 Python 开源 库 jieba 的 使 用 rg 


“结巴 ”Jjieba) 分 词 是 Python 的 一 个 中 文 分 词组 件 ,是 基于 Trie 树 结构 实现 高 速 
的 词 图 扫描 ,生成 句子 中 汉字 所 有 可 能 成 词 情 况 构 成 的 有 癌 无 环 图 ,然后 采用 动态 规 
划 查 找 最 大 概率 路 径 , 找 出 基于 词 频 的 最 大 切 分 组 合 。 它 支持 中 文 分 词 .用 户 自 定义 
词典 关键 词 提取 ,词性 标注 、 并 行 分 词 等 。 

以 下 介绍 jieba 的 使 用 方法 。 


1. 在 使 用 之 前 先 安 装 


pip install jieba 
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2. 分 词 方 法 


1) jieba. cut(sentence, cut_all= False, HMM= True) 

该 方法 接受 3 个 输入 参数 , sentence 是 需要 分 词 的 字符 串 ,其 编码 可 以 是 
unicode utf8 或 gbk; cut_all 参数 用 来 控制 是 否 采 用 全 模式 ,默认 为 否 ; HMM 参数 
用 来 控制 是 否 使 用 HMM 模型 ,默认 为 是 。 该 方法 的 返回 结果 是 一 个 generator 类 型 
的 对 象 , 可 以 通过 转换 为 list 或 者 使 用 for 循环 获取 切 分 结 东 。 例 如 : 

import jieba 


ds = jieba. cut(" 这 是 一 本 大 数据 相关 专业 的 教材 .") 
list(ds) 


可 得 到 如 下 切 分 结果 : 


2 


如 果 指 定 为 全 模式 , 即 ds 二 jieba. cut(" 这 是 一 本 大 数据 相关 专业 的 教材 。 ,cut_ 
all 二 True), 则 切 分 结果 为 : 


3 二 一 本 '， Ch ' 数 据 "， ' 相 关 "， 专业 '， 的 "， ' 教 材 "， er | 


可 见 包 含 了 多 余 信息 。 

2) 加 载 目 定义 词典 

在 文本 处 理 中 经 常会 遇 到 新 词 .专业 词汇 ,例如 上 面 例子 中 的 “大 数据 ?被 切 分 为 
“大 ”和 "数据 ?两 部 分 。 这 个 问题 可 以 通过 加 载 目 定义 词典 来 解决 ,具体 方法 如 下 : 

先 创 建 一 个 文本 文件 ,其 中 每 行 编写 一 个 词汇 ,并 保存 文件 ,例如 保存 在 “E:\udict 
. txt” 中 。 需 要 注意 的 是 ,该 文件 要 按照 utf-8 编码 。 

然后 通过 load_userdict 方法 加 载 , 即 可 进行 切 分 。 例 如 : 


import jieba 

jieba. load userdict(r"E:\udict. txt") 

ds = jieba. cut(" 这 是 一 本 大 数据 相关 专业 的 教材 .") 
list(ds) 


输出 的 结果 是 : 
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四 一 本 '， 大 数据 '， ' 相 关 '， 专业 '， i :教材 '， ] 


可 见 ,“ 大 数据 ”已 经 被 当 作 一 个 词汇 了 。 

3) 切 分 词汇 ,同时 进行 词性 标注 

带 词性 的 切 分 需要 使 用 posseg 库 ,方法 如 下 。 
import jieba. posseg 

ds = jieba. posseg. cut(" 这 是 一 本 大 数据 相关 专业 的 教材 .") 
for p in ds: 


print{(p.word+ "/"+p.flag, end=",") 
# 切 分 结果 中 的 词汇 和 词性 分 别 存放 在 word 和 flag 中 


这 段 程序 的 输出 结 采 如 下 : 


这 /r, 是 /v, 一 本 /nm, 大 /a 数据 /n, 相关/v, 专 业 /n, 的 /uj, 教 材 /n,. /x, 


其 中 ,词性 符号 是 代词 ,v 是 动词 ,m 是 数 词 ,a 是 形容 词 ,n 是 名 词 ,x 指 非 语 系 


11.2 文本 的 问 量 空间 模型 


文本 是 大 数据 中 的 一 个 重要 类 型 ,是 一 种 典型 的 非 结 构 化 数据 ,是 大 数据 分 析 的 
关键 。 在 获得 文本 中 的 词汇 及 其 特征 之 后 ,需要 有 一 种 合适 的 模型 对 这 些 特 征 进行 
数学 表示 ,以便 基 于 文本 内 容 的 各 种 分 析 应 用 能 够 有 效 地 展开 。 此 类 数学 表示 模型 
主要 有 两 大 类 , 即 回 量 空间 模型 和 概率 模型 。 本 节 主 要 介绍 癌 量 空间 模型 。 

这 里 应 当 区 分 文本 的 辐 量 表示 和 文本 的 同 量 空间 模型 两 个 名 称 。 在 许多 场合 下 
都 是 把 文本 表示 成 为 一 个 癌 量 ,例如 SVD 分 解 提 取 后 以 及 LDA 变换 后 的 文本 实际 
上 都 是 用 回 量 表示 文本 。 同 量 空间 模型 简称 VSM ,是 一 种 特 指 , 特 指 维 度 为 词汇 的 
文本 表示 方法 。 


11.2.1 特征 选择 


在 大 数据 分 类 问题 中 ,数据 对 象 的 属性 数量 通常 都 很 大 ,特别 是 文本 数据 。 特 征 
空间 是 决定 如 何 对 一 个 文本 或 数据 对 象 进行 表示 的 关键 因素 之 一 。 这 种 影响 体现 在 
以 下 两 个 方面 。 
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一 是 特征 空间 的 大 小 。 特 征 空间 越 大 ,表示 一 个 对 象 所 需要 的 维 数 就 越 多 ,在 对 
数据 对 象 进 行 运算 时 所 需要 的 各 种 计算 量 就 相应 地 增加 。 特 别 是 在 文本 中 ,其 维 数 
是 不 同 词汇 的 个 数 ,对 于 长 文本 来 说 ,这 种 特征 空间 都 很 大 。 

二 是 特征 空间 中 各 个 维度 所 存在 的 相关 性 。 大 数据 中 数据 对 象 的 各 个 属性 之 间 
通常 会 存在 一 定 的 相关 性 ,例如 描述 个 人 偏好 的 性 别 与 兴趣 主题 ,女生 更 喜欢 化 妆 品 
之 类 的 主题 信息 。 类 似 地 ,在 文本 信息 中 各 个 词汇 也 会 存在 很 大 的 相关 性 。 这 种 相 
关 性 的 存在 使 得 后 续 的 数学 模型 表达 变 得 更 加 复杂 ,也 容易 导致 分 析 中 的 不 准确 。 

特征 空间 的 研究 和 构建 经 历 了 较 长 的 发 展 历 史 , 并 且 还 在 不 断 发 展 中 。 在 这 个 
过 程 中 出 现 了 多 种 经 典 的 特征 选择 方法 ,也 出 现 了 特征 提取 这 种 从 另 一 个 角度 构建 
特征 空间 的 思路 。 同 时 , 随 着 近年 来 深度 学 习 人 研究 的 深入 ,深度 学 习 神 经 网 络 也 被 用 
于 作为 数据 对 象 ,特别 是 文本 信息 的 特征 选择 。 

在 大 数据 应 用 系统 中 ,数据 样本 所 包含 的 属性 特征 数量 一 般 会 很 大 ,特别 是 文本 
这 种 类 型 的 数据 。 由 于 构成 文本 的 词汇 数量 很 大 ,中 文 文本 经 过 分 词 . 停 用 词 的 处 理 
之 后 , 百 接 选取 所 得 到 的 词 作为 文本 的 特征 项 是 不 可 取 的 。 因 此 需要 进行 的 处 理 是 
样本 的 特征 选择 , 即 在 不 削弱 样本 主要 特征 或 文本 内 容 表示 准确 性 的 前 提 下 ,从 大 量 
的 属性 或 词 条 中 选取 那些 最 能 区 别 不 同样 本 的 属性 作为 特征 项 ,从 而 降低 向 量 空间 的 
维 数 ,向 化 计算 ,提高 分 类 准确 性 。 也 就 是 在 获得 实际 奉 干 具体 特征 后 ,由 这 些 原 始 特 
征 产 生 对 分 类 最 有 效 的 ,数目 最 少 的 特征 。 所 以 ,特征 选择 的 目的 是 对 样本 进行 降 维 。 

目前 ,特征 选择 的 主要 方法 有 信息 增益 、 卡 方 统计 量 、 互 信息 以 及 专门 针对 文本 
内 容 的 TF-IDF 等 方法 。 这 些 特征 选择 方法 可 分 为 有 监督 和 无 监督 两 类 ,其 中 TF- 
IDF .互信 息 为 无 监督 方法 , 卡 方 统计 量 .信息 增益 为 有 监督 方法 。 这 些 方法 制定 了 一 
种 能 够 进行 特征 选择 的 规则 ,能够 反映 各 类 在 特征 空间 中 的 分 布 情 况 ,能 够 刻画 各 类 
特征 分 量 在 分 类 中 的 贡献 


11.2.2 模型 表示 


文本 的 向 量 空间 模型 和 线性 代数 中 的 向 量 空间 模型 是 相同 的 ,由 基 向 量 和 坐标 
构成 。 在 文本 表示 中 , 基 向 量 就 是 特征 词汇 ,坐标 就 是 词汇 的 权重 。 

特征 词汇 是 经 过 适当 的 特征 提取 方法 选择 出 来 的 ,根据 不 同 的 应 用 场景 有 不 同 
的 选择 方法 。 假 设 选择 出 来 的 词汇 集 是 W= {wi ,ws，…,w,), 则 表示 及 个 特征 词 
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汇 , 即 构成 了 一 个 n 维 空间 。 根 据 问 量 空间 模型 的 假设 ,在 文本 的 癌 量 表示 中 也 就 意 
味 者 这 个 词汇 之 间 是 相互 独立 的 。 实 际 上 ,W 对 应 的 基 回 量 是 : 
es 0， 0， wi) 0) 


TU» 一 (0, TOD * i es 0) 


w. 一 (0，0，0，…，z，) 
在 这 些 式 子 中 ,tw 二 ws 二 … 二 w, 二 1]。 这 样 对 于 任意 一 个 文本 ,就 可 以 表示 成 为 : 
A =zxiwi xaws Ta, (11-1) 
其 中 ,zi zz 就 是 文本 在 每 个 基 回 量 上 的 权重 , 即 坐 标 。 通 过 这 种 方式 可 以 把 
一 个 文本 表示 为 一 个 特征 回 量 。 
坐标 或 权重 常用 的 计算 方法 有 布尔 权重 ,TF 权重 ,TF-IDF 权重 等 。 下 面 分别 介 
一 些 稼 用 的 特征 回 量 权重 的 计算 方法 。 


1. 布尔 权重 


布尔 权重 是 最 简单 的 权重 表示 方法 ,记录 特征 词 是 否 在 文本 中 出 现 过 。 寿 该 特 
征 词 在 某 一 文档 中 出 现 过 , 则 文档 映射 到 该 特征 词 的 维度 上 的 权重 为 1; 在 未 出 现 
过 , 则 为 0。 

布尔 权重 只 考虑 了 特征 词 是 否 出 现 过 ,没有 考虑 特征 词 出 现 的 次 数 对 特征 词 在 
表达 意义 上 的 重要 程度 的 有 影响。 通常 意义 下 ,出 现 次 数 更 多 的 特征 词 更 能 够 代表 文 

这 种 表示 方法 一 般 用 在 搜索 引擎 系统 或 不 考虑 权重 的 场合 ,因为 在 搜索 中 通常 
只 要 求 判 断 关 键 词 是 否 出 现在 页 面 文本 中 ,而 不 管 它 出 现 多 少 次 。 


2，TF 权重 


TF 权重 指 特征 项 频率 权重 (Term Frequency) ,其 主要 思想 是 将 文本 中 特征 词 出 
现 的 次 数 或 归 一 化 值 作为 文本 回 量 映射 到 该 特征 词 的 维 上 的 坐标 ,通过 特征 词 的 出 现 
频率 来 判断 文档 与 特征 回 量 表示 的 词汇 组 的 相关 度 。 归 一 化 的 TF 权重 的 定义 式 为 : 


i,j 


证 
pa 
k=1 


二 (11-2) 


| 
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其 中 ,n,, 是 特征 词 4 在 文档 w 中 出 现 的 次 数 ， > 则 统计 了 文档 中 所 有 特征 词 
的 数量 ， 

显然 ,TF 方法 简单 .容易 理解 ,基于 这 种 权重 计算 方法 ,除了 一 些 常见 的 停 用 词 
外 ,TF 值 越 大 的 词汇 越 能 反映 文本 内 容 的 含义 。 也 就 是 说 ,从 理解 文本 内 容 主题 的 
角度 看 ,TF 权重 计算 方法 还 是 有 效 的 。 

然而 ,如 果 从 多 个 文档 或 者 一 个 文档 的 不 同 组 成 段落 的 可 区 分 度 的 角度 来 看 ， 
TF 方法 就 会 存在 较 大 的 局 限 性 。 一 个 在 所 有 文档 里 面 都 出 现 多 次 的 特征 词 对 体现 
文本 的 特征 基本 没有 作用 ,因为 所 有 的 文档 都 包含 这 些 特 征 词 ,从 而 不 能 通过 这 些 特 
征 词 获取 关于 文档 的 进一步 信息 。 在 某 些 特定 文档 里 面 才 会 出 现 的 特征 词汇 则 会 对 
不 同文 本 有 较 好 的 分 辨 作用 ,可 以 利用 这 些 特征 词 很 快 地 在 文本 集中 进行 一 定 范围 
内 的 定位 和 分 类 。 


3. TF-IDF 权重 


TF-IDF(Term Frequency-Inverse Document Frequency, 词 频率 - 逆 文 档 频 率 ) 权 
重 同时 考虑 了 特征 词 出 现 的 频率 以 及 该 词 在 不 同文 章 中 出 现 的 篇 目 数 ,其 主要 思想 
是 特征 词 在 文档 中 的 权重 为 特征 词 在 文档 中 出 现 的 频数 与 反比 于 包含 该 特征 词 的 文 
档 数 目的 因子 有 关 , 通 过 文档 的 区 分 度 来 评估 特征 词 的 重要 程度 。 基 本 的 TF-IDF 
~ 下: 


TF-IDF(a ,1) =— x log ——— (11-3) 


Np,; 
k=1 


其 中 ,n,， 是 特征 词 坟 在 文档 a 中 出 现 的 次 数 ，> mw， 是 文档 中 出 现 的 特征 词 的 总 
数 ，N 是 文本 总 个 数 ,N (1) 是 包含 该 词语 i 的 文档 总 数 。 公 式 中 的 因子 log ~ 
就 是 IDF 的 值 ,可 见 ,如 果 一 个 词 在 所 有 文档 中 都 出 现 , 则 IDF=0。 在 有 的 实现 中 ， 
为 了 避免 这 个 问题 导致 某 个 维度 的 权重 值 与 TF 无 关 ,可 以 进行 平滑 处 理 。 此 外 , 考 
虑 到 某 些 特征 词 在 所 有 文档 中 都 不 出 现 的 情况 ,而 导致 被 零 除 ,因此 ,平滑 度 的 计算 
IDF 王 log((1 十 N)7C 十 NG))) 十 ] (11-4) 

为 了 避免 词汇 权重 值 的 差异 ,通常 进行 归 一 化 ,计算 方法 如 下 : 


第 11 章 ”文本 信 


上 


息 处 理 与 挖掘 技术 (229 


TF-IDF(a; ,1) 


TF-IDF(a; 大) = (C1193 


>) TF-IDF (a st)’ 


k=] 


其 中 ,n 是 文档 a; 中 的 特征 词 的 个 数 。 

TF-IDF 权重 体现 了 以 下 两 个 特征 词 评判 思路 . 

(1) 一 个 词 在 一 个 文本 中 出 现 频 迷 ,能 有 效 代 表 文 本 内 容 。 例 如 系统 安全 方 问 
的 学 术 论 文 ,“ 权 限 ” 和 “里 份 ” 等 词语 会 使 用 得 很 频繁 ,而 网 络 安全 方 回 的 论文 第 用 
“协议 "和 “连接 ”等 词汇 。 这 些 词 由 于 只 在 特定 文本 中 频繁 出 现 ,在 其 他 类 型 的 文本 
中 出 现 得 很 少 ,所 以 可 以 起 到 有 效 地 表征 文档 内 容 的 作用 。 

(2) 从 整个 文本 集 的 角度 看 ,一 个 词 在 多 个 文本 中 均 出 现 得 较 频 索 , 对 于 这 些 文 
本 来 说 该 词 含有 较 少 的 信息 量 ; 反之 ,如 宁 一 个 词 在 少数 文本 中 出 现 , 那 么 它 对 于 在 
该 文本 集中 进行 不 同文 本 的 区 分 就 具有 显 考 作 用 。 

下 面 的 表 11-1 是 一 个 TF-IDF 权 值 计算 的 例子 ,已 和 有 3 篇 文档 (A、B、C) 和 对 
应 维度 的 特征 词 (wi 、w。、…、w;) ,表格 中 的 数值 表示 每 个 词汇 在 文档 中 出 现 的 次 数 。 
按照 TF-IDF 来 进行 文本 的 向 量 表示 ,要 按照 确定 维度 (词汇 ) .确定 权重 .写成 向 量 
形式 3 个 步骤 来 完成 。 

表 11-1 TF-IDF 计算 的 例子 
文档 


上 
DSIOCIOCO|lGm= |O| 站 


在 表 11-1 中 , 痛 先 观察 每 个 词汇 的 特点 ,特别 注意 到 词汇 ws 在 整个 文档 集中 并 
不 出 现 , 因 此 如 有 果 使 用 基本 的 TF-IDF, 应 当先 排除 挥 这 种 词汇 ,否则 IDF 无 法 计算 ， 
也 没有 实际 意义 。 

通过 扫描 文档 内 容 获 得 该 文档 中 各 个 特征 词 出 现 的 频率 ,之 后 计算 文档 A 的 
TF-IDF 值 。 根 据 基 本 的 TF-IDF 的 公式 , 右 考 虑 特征 词 wi ,该 词 在 文档 A 中 出 现 了 


两 次 (ni 二 2) ,文档 A 中 的 特征 词 一 共 出 现 了 5 次 (>ymwiv =5) , 则 (CN 一 3)， 


i 一 1 
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工 F-IDFA， 王 一 Xjlog 党 
1 吕 2 
考虑 特征 词 w, 时 ,这 个 词 在 A 中 出 现 了 一 次 ,共有 两 篇 文章 (N(z;)==2) 出 现 了 
这 个 特征 词 , 则 可 得 : 


3 
< log 一 


z 
ye 7 


] 
晤 


4A 一 二 x log 六 ,0， 0, 二 x log ‘= X log Xlog 了 
一 [0.1622,0,0,0.0811,0.0811,0.0811j 
同 理 可 得 B.C 两 文档 的 回 量 化 权 值 ,需要 注意 的 是 这 里 使 用 以 e 为 砌 的 对 数 。 
TF-IDF 方法 的 局 限 性 为 其 适用 于 长 文章 而 不 适用 于 较 短 的 文字 段落 (例如 微 博 
或 单一 的 论坛 回帖 等 ) ,因为 段落 长 度 过 短 时 ,其 中 包括 的 特征 词 数量 也 较 少 ,这 样 不 
同 段 落 不 容易 包含 相同 的 特征 词 ,从 而 导致 IDF 信和 总 体 俩 大 ,权重 的 区 分 度 较 低 , 量 


化 映射 的 效 朱 比较 差 。 


11.2.3 使 用 Python 构建 回 量 空间 表示 


视频 讲解 
对 于 给 定 的 原始 文本 集合 ,可 以 使 用 Python 开源 库 sklearn 和 gensim 中 的 相关 


日 
类 或 函数 来 构造 相应 的 癌 量 空间 表示 。sklearn 和 gensim 除了 处 理 回 量 空间 以 外 还 


有 很 多 功能 ,将 在 本 革 介 绍 。 
以 下 是 构建 回 量 空间 的 例子 ,具体 见 其 中 的 标注 。 


Prog - 14 - doc - vectors. py 

和 一 %* 一 coding: utf 一 8 一 # 一 

import jieba 

from gensim. corpora. dictionary import Dictionary 

from sklearn. feature extraction. text import TfidfVectorizer 


# 将 原始 的 4 篇 文档 保存 到 列表 中 

docs = [" 新 型 互联 网 大 数据 技术 研究 "， 
"大 数据 采集 技术 与 应 用 方法 "， 
"一 种 互联 网 技术 研究 方法 "， 
"计算 机 系统 的 分 析 与 设计 技术 " 
] 


# 装载 停 用 词 列 表 
stoplist = open( 'stopword. txt', 'r', encoding = "utf ~ 8").readlines() 
stoplist = set(w. strip() for w in stoplist) 
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# 加 载 自 定义 词典 
jieba. load userdict("userdict. txt") 


井 分 词 .去 停 用 词 
texts= [| 
for d in docs : 

doc = [| 

for win list(jieba.cut(d,cut all = False)): 

if len(w)> 1 and w not in stoplist: 
doc. append( w) 
texts. append( doc ) 


# 特征 选择 ,假设 依据 是 在 texts 中 至 少 出 现 两 次 , 而 且 词 汇 所 在 的 文档 数 /总 的 文档 数 < = 1.0， 
并 选择 符合 这 两 个 条 件 的 前 10 个 词汇 作为 文本 内 容 的 代表 

dictionary = Dictionary(texts) 

dictionary. filter extremes(no below= 2, no above= 1.0, keep n= 10) 

d= dict(dictionary. items( ) ) 

docwords = set(d. values( )) 

print(" 维 度 词汇 是 : ", docwords) # 得 到 向 量 空间 的 维 


# 将 texts 中 的 每 个 文档 按照 选择 出 来 的 维度 词汇 重新 表示 文档 集 , 并 转换 成 为 
TfidfVectorizer 所 需要 的 格式 
corpus= [ |] 
for text in texts: 

= 

for w in text: 

i1f w in docwords: 
=—W wt 
corpus. append(d) 


# 使 用 TfidfVectorizer 计算 每 个 文档 中 每 个 词汇 的 TF IDF 值 
vectorizer = TfidfVectorizerl() 
tfidf = vectorizer,.fit transform(corpus ) 
words = vectorizer.get feature names!) 
for i in range( len(corpus)): 

print('———— Document %d————" $% (1}) 

for ] in range(len(words)): 

print{( words[ 3j], tfidf[i,j]) 


需要 说 明 的 是 ,TfidfVectorizer 在 计算 TF-IDF 值 时 使 用 式 (11-4) 来 计算 IDF， 
并 使 用 式 (11-5) 的 归 一 化 方法 对 每 个 词汇 的 权重 进行 处 理 。 

该 程序 的 运行 结果 如 下 ,构建 了 一 个 五 维 的 回 量 空 间 ,4 个 文档 分 别 是 该 回 量 空 
间 中 的 一 个 回 量 。 输 出 结果 中 给 出 了 每 个 文档 在 5 个 维度 上 的 权 值 。 

维度 词汇 是 : {' 技 术 ', ' 方 法 ',' 研 究 ', ' 大 数据 ', ' 互 联网 '} 

nn 0 


互联 网 0.5393129779747295 
大 数据 0.5393129779747295 
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UY 


技术 0.35696573415957816 
nO00 

研究 0. 5393129779747295 
一 一 一 一 Docunent 1 一 一 一 一 
互联 网 0.0 

大 数据 0.6404340540779521 
技术 0. 4238967383155449 
方法 0. 6404340540779521 
研究 0.0 

一 一 一 一 DocUmnent 2 一 一 一 一 
互联 网 0.5393129779747295 
大 数据 0.0 

技术 0.35696573415957816 
方法 0. 5393129779747295 
研究 0. 5393129779747295 
一 一 一 一 cument 了 一 一 一 一 
互联 网 0.0 

大 数据 0.0 

技术 1.0 

方法 0.0 

研究 0.0 


11.3 文本 分 类 及 实现 技术 


11.3.1 分 类 技术 概要 


One 
视频 讲解 

文本 分 类 有 两 种 方法 , 即 基于 规则 的 方法 和 基于 机 和 套 学 习 的 方法 。 基 于 规则 的 
方法 是 采用 声言 学 的 知识 对 文本 进行 分 析 后 ,人 工 定义 一 系列 局 发 式 规则 ,用 于 文本 
分 类 ; 基于 机 人 船 学 习 的 方法 是 对 文本 进行 特征 提取 ,然后 采用 分 类 货 进 行 分 类 。 有 目 
前 的 主流 人 研 哆 方法 是 采用 基于 机 吾 学 习 的 方法 。 

在 分 类 中 涉及 的 概念 有 分 类 一 .训练 .训练 样本 ,测试 样本 等 。 

分 类 华 是 在 数据 挫 气 中 对 样本 进行 分 类 的 总 称 , 分 类 的 概念 为 在 训练 数据 的 基 

训练 是 指 对 模型 的 参数 进行 优化 ,选取 最 优 的 模型 参数 ,使 得 算法 能 够 建立 具有 
很 好 学 化 能 力 的 模型 ,也 就 是 建立 能 够 准确 地 预测 未 知 样 本 类 别 的 模型 。 

训练 样本 是 由 类 别 已 知 的 样本 组 成 ,用 于 模型 的 训练 。 

测试 样本 是 由 类 别 未 知 的 样本 组 成 ,用 于 测试 模型 的 性 能 。 
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一 个 文本 分 类 的 基本 流程 如 图 11-3 所 示 ,图 中 包含 了 分 类 器 训练 和 样本 分 类 两 
个 过 程 , 分 别 用 实 线 和 虚线 表示 相应 的 流程 。 可 以 看 出 这 两 个 过 程 对 文本 有 相同 的 
处 理 步 又 ,包括 文本 预 处 理 、 特 征 选择 /特征 提取 .文本 表示 。 


分 类 奋 性 能 评估 


川 练 性 本 集 


图 11-3 分 类 流程 


基于 该 流程 ,文本 分 类 的 主要 处 理 环 三 介绍 如 下 。 

(1) 文本 预 处 理 : 处 理 文本 信息 的 最 初步 又 ,包括 分 词 ( 中 文 切 词 )、 去 除 信用 词 、 
词 形 规范 化 等 。 

(2) 特征 选择 和 特征 提取 : 文档 表示 成 计算 机 能 理解 的 形式 后 ,由 于 高 维特 征 的 
抑 余 和 噪声 ,会 严重 影响 分 类 的 准确 性 ,不 能 直接 用 于 训练 分 类 器 ,所 以 要 从 向 量 空 
间 中 抽取 最 有 效 的 、 最 有 具 代表 性 的 词汇 作为 文档 的 特征 癌 量 。 

(3) 文本 表示 : 文本 内 容 在 计算 机 中 的 表示 方法 ,主要 有 空间 问 量 模型 ,布尔 模 
型 概率 检索 模型 等 。 

(4) 分 类 天 参数 学 习 : 运用 目前 流行 的 分 类 方法 (例如 贝 叶 斯 .KNN、SVM 、 决 忒 
树 .神经 网 络 等 分 类 方法 ) 进 行 分 类 ,基于 给 定 样 本 调整 模型 参数 。 

(5) 分 类 : 利用 训练 好 的 分 类 器 对 待 分 类 样本 的 归属 类 别 进行 计算 。 

(6) 分 类 需 性 能 评估 : 为 了 判断 分 类 器 的 好 坏 ,必须 有 衡量 分 类 器 性 能 的 指标 ,例如 
准确 率 、 召 回 率 下 值 等 。 同 时 ,分 类 器 性 能 评估 也 是 优化 分 类 需 参 数 的 一 种 判断 方法 。 


11.3.2 分 类 如 技术 


本 节 以 文本 分 类 为 背景 介绍 经 典 的 分 类 方法 ,当然 这 些 分 类 方法 并 不 局 限于 广 
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本 分 类 领域 。 文 本 分 类 应 该 是 最 凋 匈 的 文本 二 义 分 析 任 务 了 。 对 于 一 个 类 目标 签 达 
几 百 个 的 文本 分 类 任务 而 言 ,90% 以 上 的 准确 率 、 召 回 率 依旧 是 一 个 很 困难 的 事情 。 
这 里 说 的 文本 分 类 指 的 是 泛 文 本 分 类 ,包括 query 分 类 广告 分 类 .page 分 类 .用户 分 
拓 等 ,因为 即使 是 用 户 分 类 ,实际 上 也 是 对 用 户 所 属 的 文本 标签 ,用户 访问 的 文本 网 
页 做 分 类 。 

以 下 介绍 朴素 Bayes 分 类 、KNN 分 类 .SVM 分 类 ,同时 介绍 分 类 模型 的 性 能 评 


1. 朴素 Bayes 分 类 


Bayes 分 类 即 贝 叶 斯 分 类 , 它 是 基于 贝 叶 斯 定理 的 一 种 分 类 算法 。 贝 叶 斯 定理 就 
是 已 知 菜 条 件 概率 ,如 何 得 到 两 个 事件 交换 后 的 概率 ,也 就 是 已 知 PCA1B) 如 何 得 到 
P(B|IA), 即 . 


P(A |B)P(B) 
PA 


在 贝 叶 斯 分 类 中 ,假设 训练 样本 集 为 M 类 , 记 为 C={c ,cs;,…,cm), 每 类 的 先 
紊 为 P(ec;),c 二 1,2,…,M, 当 样本 集 非常 大 时 ,可 以 认为 : 


ci 类 样本 数 
总 样本 数 


对 于 一 个 样本 xz ,将 其 归 为 类 c, 的 概率 为 P(c,|z) ,这 是 一 个 后 验 概率 则 根据 由 
叶 斯 定理 ,可 得 ; 


P(B|A)= (11-6) 


验 相 


Pl(c,;) = (11-7) 


P(r | cIP(e,) 
- 下 ) - ， 7 二],2,°…,M (11-8) 
a 


P(c;) 可 以 从 数据 中 获得 ,如 末 文 档 集 合 D 中 属于 c; 的 样 例 数 为 4;, 则 


Phe | 


Ber,y er (11-9) 

假设 z 可 以 表示 为 特征 集合 {wi ,ws，,… ,zw,),t 为 特征 的 个 数 ,如 果 特 征 之 间 存 
在 关联 , 则 需要 估计 大 量 的 概率 值 ,如 果 特 征 之 间 相互 独立 , 则 只 需要 每 个 特征 和 每 
个 类 别 PCw; 1c;)。 在 朴素 贝 叶 斯 分 类 中 假设 各 个 特征 之 间 相 互 独立 ,因此 有 : 


Pl c,) —P (wi 9 TOs 9 90, | c,) 


= |[ Bt | (11-10) 
j=1 
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最 后 ,通过 最 大 后 验 概率 判定 准则 来 选择 样本 的 类别 标签 ,如 末 
k=argmaxPlc; | x), ;=1,2,...,M 
则 xz 属于 cx 类 。 
在 实际 应 用 中 , 贝 叶 斯 方法 的 类 别 总 体 的 概率 分 布 和 各 类 样本 的 概率 分 布 常 第 
是 未 知 的 ,所 以 要 求 样 本 足够 大 。 同 时 为 了 方便 计算 ,在 实际 应 用 中 多 为 朴 系 贝 叶 斯 
分 类 。 


2，KNN 分 类 


KNN 算法 的 思想 比较 简单 , 即 如 果 一 个 样本 ( 回 量 ) 在 特征 空间 中 的 K 个 最 近 
邻 样 本 ( 回 量 ) 中 的 大 多 数 属 于 某 一 个 类 别 , 则 该 样本 ( 回 量 ) 也 属于 这 个 类 别 。 对 文 
本 分 类 而 言 ,在 给 定 新 文本 后 ,考虑 在 训练 文本 集中 与 该 新 文本 距离 最 近 的 天 篇 文 
本 ,根据 这 K 访 文 本 所 属 的 类 别 判 断 新 文本 所 属 的 类 别 。 

KNN 分 类 的 示意 图 如 图 11-4 所 示 , 显 示 了 一 个 二 维 词汇 空间 上 的 分 类 方法 , 当 
K 三 1 时 ,最 近 的 邻居 样本 都 属于 A 类 ,因此 将 该 文本 标志 为 A 类 ; 而 当天 三 9 时 ,最 
近邻 大 中 属于 B 类 的 个 数 更 多 ,因此 将 该 新 文本 分 为 B 类 。 

新 文本 0 
也 BB 关 


K=1，A 类 
K=9，B 类 


0 WwW] 


图 11-4 KNN 分 类 的 示意 图 


KNN 分 类 算法 具体 步 缀 的 描述 如 下 : 

(1) 根据 特征 项 集合 重新 描述 训练 文本 癌 量 。 

(2) 对 于 一 个 新 文本 ,根据 特征 词 分 词 ,确定 新 文本 的 向 量 表示 。 

(3) 在 训练 文本 集中 选 出 与 之 最 相似 的 天 个 文本 ,并 放 人 集合 S 中 。 
文本 间 的 距离 可 以 采用 夹 角 余 弦 计 算 : 


其 
和 ) Wi 
k=1 


Sm(D, sD) =ewst =—— SS (11-11) 


i 苦 

2 
CO CO 2 
二 1 k=1 


( 36) 
CN 


Python 仆 虫 大 数据 采集 与 挖掘 - 微 课 视 频 版 


K 值 的 计算 目前 没有 很 好 的 办 法 ,一般 先 定 一 个 初始 值 ,然后 根据 实验 测试 结 琳 
调整 天 值 ,可 根据 样本 规模 将 初始 值 设 定 在 几 十 到 几 日 之 间 。 
(4) 在 新 文本 的 邻 大 中 ,以 此 计算 每 类 的 权重 : 


pz,C)) = > Sim(r,di)y (di;,C,) (11-12) 


1， di EC 
4 (11-13) 
0， di; FC, 
其 中 ,x 为 新 文本 的 向 量 ,y 为 类 别 属性 函数 ,表示 如 果 a 属于 类 别 C, 则 函数 值 为 1， 
否则 为 0。 然 后 比较 类 别 的 权重 ,将 文本 分 到 权重 最 大 的 类 别 中 。 
KNN 方法 的 不 足 之 处 是 计算 量 大 ,因为 对 每 一 个 待 分 类 的 文本 ,都 要 计算 它 到 全 
体 已 知 样本 的 距离 ,这 样 才能 求 得 它 的 K 个 最 近邻 点 。 常 用 的 减少 计算 量 的 方法 为 : 
(1) 事先 对 已 知 样本 点 进行 剪 术 ,去 除 对 分 类 作用 不 大 的 样本 。 
(2) 利用 空间 换 时 间 的 方法 ,事先 将 所 有 样本 点 的 两 两 距离 计算 出 来 并 存 人 相 
应 的 位 置 以 备 索引 。 
第 一 种 方法 容易 产生 新 的 误差 ,第 二 种 方法 将 占用 过 多 的 存储 空间 。 


3, SVM 分 类 


支持 向 量 机 (Support Vector Machine,SVM) 是 建立 在 统计 学 习 理 论 的 VC 维 理 
论 和 结构 风险 最 小 原理 上 的 ,根据 有 限 的 样本 信息 在 模型 的 复杂 性 和 学 习 能 力 之 间 
寻求 最 佳 折 中 ,以 期 望 获得 最 好 的 推广 能 力 。 其 中 VC 维 是 对 函数 类 的 一 种 度量 ,VC 
维 越 高 ,一 个 问题 就 越 复 杂 ; 结构 风险 其 实 就 是 假设 的 模型 与 真实 模型 之 间 的 误差 。 

在 设计 分 类 器 时 经 常会 出 现 这 样 的 现象 , 即 对 一 个 给 定 的 样本 集 而 言 , 有 时 用 非 
币 简 单 的 分 类 需 进 行 分 类 ,效果 反而 比 用 复杂 算法 好 ,这 种 现象 是 过 学 习 问 题 , 即 在 
某 些 情况 下 训练 误差 过 小 反而 会 导致 推广 能 力 下 降 。 这 是 分 类 器 选取 了 一 个 足够 复 
杂 的 分 类 函数 (VC 维 很 高 ) ,能 够 精确 地 记 住 每 一 个 样本 ,但 其 泛 化 能 力 (推广 能 力 ) 
很 差 ,除了 样本 中 的 数据 ,其 他 数据 都 分 类 错误 ,而 SVM 就 是 期 望 获得 最 优 推广 能 力 
的 方法 。 图 11-5 展示 了 一 个 线性 分 类 器 在 处 理 复杂 样本 分 类 时 的 推广 能 力 , 得 到 了 
更 高 的 分 类 准确 性 。 对 训练 样本 采用 图 11-5(a) 的 非 线 性 分 类 器 进行 训练 ,在 分 类 时 
两 个 新 样本 产生 了 误 分 ; 而 采用 图 11-5(c) 的 线性 分 类 器 时 ,尽管 在 训练 时 产生 了 一 
定 误差 ,但 对 同样 的 新 样本 进行 分 类 时 却 能 得 到 正确 结果 。 
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委 设 特定 加 于 本 让 (Cami EREl ls lhs 
i 二 1,2…,n, 要 寻找 一 个 分 类 规则 I (x), 使 它 能 对 未 知 类 别 的 新 样本 做 尽 可 能 正确 
的 划分 。 可 以 用 一 个 线性 判别 孔 数 来 做 介绍 : 
g(X)=w' 工 十 on (11-14) 
假设 这 是 一 个 二 维 空间 中 仅 有 两 类 样本 的 分 类 问题 ,其 中 C, 和 CC, 是 要 区 分 的 
两 个 类 别 ,中间 的 一 条 直线 是 分 类 函数 。 线 性 函数 就 是 在 一 维 空间 中 的 一 个 点 、 二 维 
空间 中 的 一 条 线 .三 维 空间 中 的 一 个 平面 ,它们 统称 为 超 平面 ,如 图 11-6 所 示 。 


全 图 二 全 
OO OO 
、 放 
人 On? 


| 


(a) (b) 
On ， 
Q a © OO, 
必 ~ ~ er 
、 司 O 
(d) 


图 11-5 ”分 类 器 的 比较 图 11-6 分 类 面 


对 于 一 个 两 类 问题 ,决策 规则 为 : 

如 果 g(Cz) 二 0, 则 判定 过 属于 C，: 

如 果 g (xz) 二 0, 则 判定 xz 属于 Ci; 

如 果 g(Cz)=0, 则 可 以 将 z 分 为 任意 一 类 ,或 者 拒绝 判定 。 

并 且 称 公式 中 的 w 为 支持 向 量 , 就 是 需要 的 特征 样本 。 

在 SVM 中 核 函 数 是 一 个 重要 概念 。 核 函数 的 作用 是 接受 两 个 低 维 空间 中 的 向 
量 ,能 够 计算 出 经 过 某 个 变换 后 在 高 维 空间 中 的 向 量 内 积 值 。 常 用 的 核 晒 数 有 线性 
核 函数 、 多 项 式 核 函 数 、 径 向 基 核 函数 、Sigmoid 核 函 数 和 复合 核 函 数 。 在 文本 分 类 
中 ,常用 的 核 函 数 为 线性 核 孙 数 ,但 目前 核 函 数 选 择 没有 指导 原则 , 某 些 问题 选用 某 
个 核 函 数 会 效果 很 好 ,而 男 一 些 则 很 差 。 

在 SVM 方法 中 , 非 线性 映射 是 SVM 方法 的 理论 基础 ,SVM 利用 内 积 核 函 数 代 
替 向 高 维 空间 的 非 线性 映射 。SVM 方法 的 目标 是 对 特征 空间 划分 找到 其 最 优 超 平 
面 , 其 核心 思想 是 最 大 化 分 类 边际 。 文 持 癌 量 是 SVM 的 训练 结果 ,在 SVM 分 类 决 
策 中 起 决定 作用 的 是 支持 向 量 。 
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SVM 在 应 对 多 类 情况 下 第 用 的 方法 是 将 K 类 问题 转化 为 K 个 两 类 问题 ,其 中 
第 i 个 问题 是 用 线性 判别 函数 把 属于 C; 类 与 不 属于 C; 类 的 点 分 开 。 喝 复 末 的 方法 


| KC—1) | / 
是 利用 ~ 一 一 个 线性 判别 函数 ,把 样本 分 为 K 个 类 别 ,每 个 线性 判别 函数 只 对 其 


中 的 两 个 类 别 分 类 。 

SVM 的 最 终 决策 因数 只 由 少数 的 文 持 回 量 所 确定 ,计算 的 复杂 性 取决 于 文 持 回 
量 的 数目 ,而 不 是 样本 空间 的 维 数 , 这 在 东 种 意义 上 避免 了 维 数 灾难 ?。 并 且 少 数 文 
持 癌 量 决定 了 最 终结 果 , 这 不 仅 可 以 帮助 用 户 抓 住 关 键 样本 、“ 底 除 "大量 元 余 样 本 ， 
还 注定 了 该 方法 不 但 算法 简单 ,而 且 上 共有 较 好 的 牌 棒 性 ,适合 于 对 小 样本 的 分 类 。 


4. 分 类 模型 的 性 能 评估 


现 有 多 种 分 类 兰 和 分 类 算法 ,在 实际 应 用 中 怎么 选择 合适 的 模型 和 算法 呢 ? 这 
就 需要 有 一 种 评 佑 分 类 性 能 的 指标 ,通过 比较 这 些 指标 的 大 小 来 判断 分 类 天 的 好 坏 。 
首先 介绍 混 清和 矩阵 (Confusion Matrix) 的 概念 , 它 是 用 于 统计 分 类 结果 的 矩阵 ,也 称 
为 二 分 类 的 列 联 表 。 和 矩阵 的 形式 如 表 11-2 所 示 , 其 中 总 的 测试 样本 n= 二 a 十 b 十 c 十 d。 
表 11-2 混淆 和 矩阵 
真实 类 别 为 正 例 真实 类 别 为 负 例 


下 区 刀 太 下岗 ， 
镀 法 判断 为 负 全 


基于 这 个 表 中 的 统计 信息 定义 两 个 分 类 性 能 指标 , 即 查 全 率 ( 召 回 座 ,Recall, 俐 
记 为 r) 和 查 准 率 ( 准 确 率 ,Precision; 人 简 记 为 pb), 计 算 方法 分 别 为 : 


[i 
= 一 一 1]1-15 ) 
r i | 
旋 一 一 (11-16) 

C 十/ 


显然 在 评价 性 能 时 r、p 值 必须 成 对 出 现 ,否则 就 会 得 到 片面 的 结论 。 基 于 p 和 
r 值 定义 一 个 新 的 指标 Fj ,这 梓 在 比较 性 能 时 更 方便 。 


2pr z 
py 11-17) 
| 2 i ( 


F 实际 上 是 一 般 化 指标 Fe ,8=1 时 的 结果 。F， 的 值 越 大 ,分 类 算法 的 性 能 就 
越 好 ， 
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对 于 多 分 类 系统 来 说 ,评价 其 分 类 性 能 时 需要 对 每 个 类 别 计算 对 应 的 p vr、 
值 , 即 把 当前 类 别 当成 正 例 , 其 他 的 为 反例 ,统计 得 到 混淆 矩 阵 , 再 按照 公式 计算 结果 
值 。 对 于 类 别 比较 多 的 分 类 问题 ,需要 有 较 多 的 指标 ,为 了 更 好 地 进行 评价 ,引入 安 
平均 和 微 平均 ， 

， 宏 平均 , 将 某 个 类 看 作 正 例 ,其 他 类 别 看 作 负 例 ,每 个 类 都 这 样 处 理 后 可 以 得 

到 多 个 混淆 矩阵 ,再 统计 每 个 类 别 的 rp 值 ,然后 对 所 有 的 类 求 rp 的 平均 
值 ,分 别称 为 宏观 查 全 率 、 宏 观 查 准 率 和 宏观 。 即 ， 


Pe 


Macro r = Cc | (11-18) 
pi 
Macro_p = c | (11-19) 
z > i 
Macro FF, = - (11-20) 
Cc 
或 


Macro 7 十 Macro _p 
其 中 ,|1C|1 表 示 分 类 系统 的 关 别 数 。 
。 微 平 均 : 先 建 立 一 个 全 局 列 联 表 , 即 对 数据 集中 的 每 一 个 样本 不 分 类 别 进行 
统计 建立 全 局 混 消 矩阵 ,然后 根据 这 个 全 局 混 消 矩阵 进行 计算 。 即 : 


> i 
里 


Micro rr 一 -一 一 (11-22) 


> Qi 十 Ci 
Da 


Micro p = 二 -一 一 一 一 人 区 和 


下 i 二 bi; 


2 XxX Micro r X Micro_p 
Micro r+ Micro_p 


除了 基于 查 全 认 和 查 准 率 的 这 一 系列 指标 外 ,还 有 ROC、ROC-p 等 衡量 分 类 算 
法 性 能 的 指标 。 这 些 分 类 性 能 指标 的 选择 和 运用 应 当 根 据 具 体 的 分 类 问题 ,例如 对 
于 非 平衡 分 类 情况 ,可 能 会 更 加 关注 少数 类 的 分 类 效果 。 


Micro_F = (11-24) 


2401 Python 疏 虫 大 数据 采集 与 挖掘 - 微 课 视频 版 
CN 


11.3.3 新 闻 分 类 的 Python 实现 


本 节 介绍 了 基于 SVM 分 类 器 进行 新 闻 文 本 分 类 的 Python 实现 方 国富 呈 
法 ,总体 实现 流程 如 图 11-7 所 示 。 数 据 集中 包含 3 个 新 闻 类 别 , 分 别 是 “ 
汽车 类 、 财 经 类 .科技 类 。 训 练 集中 每 个 类 别 有 130 个 训练 样本 .测试 集 中 每 个 类 别 
有 20 个 样本 。 每 个 样本 都 单独 保存 到 一 个 文本 文件 中 ， 


1 2 3 1 2 3 


训练 样本 测试 样本 


load data 
读 取 (训练 文档 、 样 本 


load data 


谈 取 测试 数据 肥 类 别 标 侈 


Preprocess preprocess 
( 分 闻 保 | |] 词 过 滤 2 ( 分 词 特征 词 过 滤 ) recal fl-seor 
词 频 过 小 、 特 征 选 择 ) Pe la 1L00 060 0.7 
1 0.80 0.8 
| .tb .9 下 i 
分 类 性 能 


train svm 
(构造 TFIDF 和 矩阵 、SVYM 
参数 拟 合 ) 


保存 模型 参数 
(特征 词 、SVM 参 数 ) 


svm classify 
(TFIDF 和 表示 、SVM 分 
类 、 性 能 评估 ) 


污 夭 可 刑 Loadmodel 
(特征 词 、SVM 人 参数 ) 


| | classifier,.dict 


| | sym.model 


图 11-7 SVM 分 类 过 程 的 实现 


该 流程 总 体 上 包含 了 训练 和 分 类 测试 两 个 流程 ,左边 是 训练 ,右边 是 分 类 测试 ， 
并 给 出 分 类 性 能 评估 结果 。 

在 训练 流程 的 实现 中 ,首先 谈 取 训练 样本 及 对 应 的 类 别 标签, 然后 进行 分 词 、 俘 
用 词 过 滤 、 词 频 过 滤 和 特征 选择 ,在 此 基础 上 构造 整个 训练 样本 集 对 应 的 TFIDF 算 
阵 , 将 每 个 样本 表示 在 特征 词 为 维度 、TFIDF 为 权重 的 向 量 空间 中 ,从 而 使 用 SVM 
来 训练 分 类 货 ,最 终 将 分 类 融 的 参数 和 特征 词 保 存 起 来 。 

在 分 类 测 试 流程 的 实现 中 ,首先 谈 取 训练 好 的 SVM 分 类 大 参数 和 特征 词 列 表 ， 
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然后 读 取 测试 样本 ,进行 分 词 , 并 利用 训练 环 市 生成 的 特征 词 列表 来 过 滤 测 试 文档 中 
的 词汇 ,构造 相应 的 IFIDF 矩阵 ,最 后 使 用 SVM 对 每 个 样本 进行 分 类 测试 ,将 测试 
结 条 与 测试 样本 的 类 别 标签 进行 比较 ,输出 分 类 融 的 分 类 性 能 。 需 要 说 明 的 是 ,测试 
样本 也 需要 表示 在 与 训练 样本 一 样 的 问 量 空间 中 ,因此 计算 测试 样本 词汇 的 IDF 值 
时 应 基于 训练 集 的 计算 结 采 。 

以 下 是 这 两 个 流程 的 具体 实现 方法 ,其 中 使 用 到 的 主要 开源 了 水 数 包 或 孙 数 有 
gensim. corpora, sklearn. svm, sklearn. feature extraction. text. TfidfVectorizer., 
sklearn. metrics. confusion matrix, sklearn. metrics. classification report 等 ,用 于 数 


据 集 的 表示 、TFIDF 的 计算 .SVM 模型 以 及 性 能 分 析 等 。 


1. 训练 分 类 器 


视频 讲解 


Prog - 15 - train. classifier. py 

import jieba, os 

from gensim import corpora 

from sklearn import svm 

from sklearn. feature extraction. text import TfidfVectorizer 


from sklearn. externals import joblib 


# 读 取 所 有 文本 信息 ,生成 文档 列表 
def load data(ltrainsdir): 
documents= [|] 


ET 
# 读 取 每 个 子 目录 下 的 文本 文件 


subdirs = os. walk(trainsdir) 
for d,s,fns in subdirs: 
for fn in fns: 
if fn[ ~- 3:] == 'txt'": 

# print(d+ os. sep + fn) 
# 根据 文件 编码 指定 编码 方式 ,例如 utf- 8、gbk、ansi 等 
f=open(dt+os,sept+ fn, "r",encoding= "ansi") 
filecontent = f. read( ) 
documents. append (filecontent) 
label. append(d[d.rindex("\\")+1:]) ，# 子 目录 名 称 作为 类 别 标签 


return documents, label 


# 预 处 理 : 分 词 . 停 用 词 过 滤 . 词 频 过 滤 、 特 征 选 择 

def preprocess(documents): 
stoplist = open( 'stopword. txt', 'r', encoding = "utf ~ 8"). readlines!() 
stoplist = set(w. strip() for win stoplist) 
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# 分 词 .去 停 用 词 
texts= |] 
for document in documents : 

doc=|[] 

for w in list(jieba.cut(document, cut all = True) ) : 

if len(w)> 1 and w not in stoplist: 
doc. append(w) 
texts. append( doc) 


# 生 成 词典 
dictionary = corpora. Dictionary(texts) 
dictionary. filter extremes(no below= 3, no above= 1.0,keep n= 1000) 


return texts, dictionary 


# 训练 SVM 分 类 器 : 构造 TEIDF 矩阵 、SVM 参数 拟 合 
def train svm(train data, dictionary, train tags): 
traindata = [| 


dlist= list(dictionary. values( )) 


for 1 in train data: 
words="" 

for w in 1: 
if w in dilist: 


words = Words 十 WwW 十 


traindata. append( words ) 


TY = TfidfVectorizerl) 


tdata = v.fit transform(traindata) 


svc = svm.SVC(kernel = 'rbf',gqamma = 'auto') 
svc.fit(tdata, train tags) 
return SVC 

1f name == ' main '": 
newsdir = input( "请 输入 训练 集 的 根 目 录 : ") 
docs, label = load data(newsdir) 


corpus, dictionary = preprocess (docs) 
svm = train svm(corpus, dictionary, label) 
dictionary. save(l "classifier. dict") 


joblib. dump( svm, "svm.model") 


print(" 训 练 完成 1") 
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2. 使 用 SVM 进行 分 类 测试 
和 
视频 讲解 
Prog - 16 - classify. py 

import jieba, os 

from gensim import corpora 

from sklearn import svm 

from sklearn. feature extraction. text import TfidfVectorizer 

from sklearn. externals import joblib 

from sklearn. metrics import confusion matrix 

from sklearn. metrics import classification report 


# 训练 SVM 分 类 器 及 词典 
def loadmodel (modeldir): 
svm = joblib. load("svm.model") 
dictionary = corpora.Dictionary. load('classifier. dict') 


return svm, dictionary 


'"' 读 取 所 有 文本 信息 ,生成 文档 列表 . 
测试 样本 位 于 列表 的 前 面 ,测试 样本 个 数 与 label 大 小 一 致 
包含 训练 集 , 因 IDF 的 计算 与 训练 集 有 关 
def load data(ltrainsdir, testdir): 
documents = [|] 
label= [] 


# 读 取 每 个 testdir 子 目 录 下 的 文本 文件 

subdirs = os. walk(testdir) 

for d,s,fns in subdirs: 

for fn in fns: 
if fn[ -3:] == 'txt': 

# print(d+ os. sep + fn) 
# 根据 文件 编码 指定 编码 方式 ,例如 utf- 8.gbk ,ansi 等 
f= open(d+i+os.sep+fn, "r",encoding = "ansi" 
filecontent = f. read( ) 
documents. append( filecontent) 


label.append(d[d.rindex("\\") +1:]) ，# 子 目录 名 称 作为 类 别 标签 


井 读 取 每 个 trainsdir 子 目录 下 的 文本 文件 

subdirs = os. walk(trainsdir) 

for d,s,fns in subdirs: 

for fn in fns: 
if fn[ -3:] == 'txt': 

# print(d+ os. sep + fn) 
# 根据 文件 编码 指定 编码 方式 ,例如 utf -8、gbk、ansi 等 
f= open(d+os. sep+fn, "r",encoding = "ansi" 


filecontent = f. read( ) 


人 


O 
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documents. append (filecontent) 
return documents, label 


# 预 处 理 : 分 词 .特征 词 过 滤 , 生 成 新 的 文档 列表 

def preprocess( documents ,dictionary) : 
stoplist = open( 'stopword. txt', 'r', encoding = "utf ~ 8") .read]lines( ) 
stoplist = set(w. strip() for win stoplist) 
dclist= list(dictionary. values( )) 


# 分 词 去 停 用 词 
texts= [|] 
for document in documents : 

doc= [] 

for win list(jieba.cut(document, cut all = True) ) : 

if w in dclist: 
doc. append(w) 

texts. append( doc ) 

return texts 


# 分 类 

def svm classify(svm, dataset, dictionary, test tags): 
data= [| 
testresult = [|] 
dlist = list(dictionary. values( ) ) 


for 1 ln dataset: 
words="" 
for w in 1: 
if Ww in dlist: 
Words = Words 十 W 十 " 
data. append( words ) 


井 把 文档 集 ( 由 空格 隔 开 的 词汇 序列 组 成 的 文档 ) 转 换 成 为 TFIDF 向 量 
Vv = TfidfVectorizer( ) 
tdata = v.fit transform( data) 


correct=0 
# 获取 测试 样本 ( 待 分 类 的 样本 ), 输 出 分 类 结果 
for i in range(len(test tags)): 
test X= tdatal i] 
r= svm.predict(test X) # 此 处 test X 为 特征 集 
testresult. append(r[0]) 
if r[0] == test tags[i]: 
correct += 1 


# 性 能 评估 


cm = confusion matrix(test tags,testresult) 
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print{cm) 

target names = ['class 0', 'class 1', 'class 2'| 

print(classification report(test tags,testresult, target names = target names)) 
print(" 正 确 率 =" + str(correct/len(test tags))) 


return 


if name == ' main ': 
modeldir = input(" 请 输入 模型 文件 的 目录 :") 


svm, dictionary = loadmodel (modeldir) 


trainsdir = input(" 请 输入 包含 训练 集 的 根 目 录 : ") 
testdir = input( "请 输入 包含 测试 集 的 根 目 录 : ") 


documents, label = load data(trainsdir, testdir); 


dataset = preprocess(documents, dictionary) 
svm classifyl( svm, dataset, dictionary, label) 


print(" 分 类 完成 1") 


这 里 需要 说 明 的 是 ,在 分 类 (测试 ) 中 输入 包含 训练 集 的 根 目 录 , 是 为 了 在 整个 文 
本 集中 计算 词汇 的 IDF 值 。 另 一 种 处 理 办 法 是 在 模型 训练 完成 后 ,将 计算 词汇 IDF 
值 所 需要 的 N 和 Ni) 也 记录 下 来 ,这 样 在 分 类 时 可 以 直接 根据 测试 集 的 统计 结果 
对 N 和 NN (z) 进 行 更 新 并 计算 IDF ,就 不 需要 再 提供 训练 集 了 。 

假设 该 分 类 测试 程序 与 训练 得 到 的 模型 在 同一 个 目录 ,并 且 目 录 中 包含 了 data 
子 目录 ,具体 文件 见 配套 资源 。 那 么 ,这 个 分 类 测试 程序 运行 过 程 及 结果 如 下 : 


请 输入 模型 文件 的 目录 :. 
请 输入 包含 训练 集 的 根 目录 :data\train 
请 输入 包含 测试 集 的 根 目录 :data\test 
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在 这 个 输出 中 显示 了 混 清 和 矩阵 ,表示 每 个 类 的 样本 的 分 类 情况 。 可 以 看 出 ,对 于 
第 一 类 (class 0) ,有 12 个 样本 能 正确 分 类 ,有 1 个 样本 被 分 到 第 二 类 (class 1), 有 
7 个 样本 被 分 到 第 三 类 (class 2)。 根 据 该 混 消 和 矩阵 ,第 一 类 (class 0) 的 precision 值 为 
12/(12 十 0 十 0) 王 1. 00,recall 值 为 12/(12 十 1 十 7) = 二 0. 60, 相 应 的 Fl 二 2 x* 1 x*0.6/(1 十 


11.4 主题 及 其 实现 技术 


11.4.1 主题 的 定义 


主题 代表 着 某 种 叙事 范围 ,广泛 应 用 于 主题 疏 虫 .新 闻 热 点 控 掘 等 中 。 其 首要 问 
题 是 如 何 定 义 主 题 及 如 何 描述 一 个 主题 ,从 目前 所 使 用 的 方法 看 主要 有 以 下 几 种 
J 
地 包含 主题 可 能 涉及 的 关键 词 。 表 11-3 是 大 干 个 例子 。 


表 11-3 ”主题 的 关键 词 集 示例 
主 题 关键 词 集 
大 数据 大 数据 数据 挖掘 特征 选择 数据 Spark Hadoop 
世界 杯 足 球赛 世界 杯 足球 赛 俄罗斯 法 国 队 大 力 神 FIFA 
股票 市 场 股票 市 场 看 涨 看 跌 股市 行情 发 行 券商 
二 是 用 关键 词 及 权重 集 来 描述 主题 。 在 基于 关键 词 集 来 表达 主题 时 ,每 个 关键 
词 的 重要 性 是 相同 的 ,但 实际 上 每 个 关键 词 在 表达 主题 的 能 力 上 是 有 所 区 别 的 ,例如 
“大 数据 ”这 个 词 就 比 其 他 词 更 能 描述 “大 数据 ”这 个 主题 。 因 此 可 以 进一步 为 每 个 关 
键 词 设置 一 个 权重 来 反映 其 在 表达 主题 时 的 重要 性 ,这 时 关键 词 集 的 表达 方式 就 变 
成 了 关键 词 及 权重 集 的 表达 方式 。 表 11-4 是 市 权重 的 主题 描述 。 


表 11-4 主题 的 关键 词 及 权重 示例 
主题 关键 词 集 
大 数据 大 数据 /0. 4 数据 挖掘 70. 2 特征 选择 /0. 1 数据 /0. 1 Spark/0.1 Hadoop/0.1 
世界 杯 足 球赛 | 世界 杯 /0.4 足球 赛 /0. 3 俄罗斯 /0.1 法 国 队 /0.1 大 力 神 /0.05 FIFA/0.05 
股票 市 场 股票 /0. 2 市 场 /0.2 看 涨 /0. 1 看 跌 /0. 1 股市 /0. 2 行情 /0. 1 发 行 /0. 05 养 商 /0. 05 
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三 是 对 关键 词 集 进行 某 种 划分 ,通过 对 子 主题 的 描述 来 实现 对 整个 主题 的 定义 。 
例如 对 于 “大 数据 ”这 个 主题 ,可 以 按照 应 用 领域 来 划分 大 数据 ,也 可 以 按照 技术 构成 
来 划分 ,从 而 产生 不 同 的 子 话题 。 

在 数学 模型 上 ,可 以 采用 向 量 空间 模型 来 表达 第 一 和 第 二 种 定义 方法 ,而 采用 各 
率 模型 (例如 高 斯 混合 模型 .主题 模型 (Topic Model) 等 ) 来 描述 第 三 种 方式 定义 


11.4.2 基于 回 量 空 间 的 主题 构建 


在 11.2 节 中 介绍 了 向 量 空间 模型 ,主题 既然 可 以 看 作 关 键 词 及 其 权重 的 表示 方 
法 ,因此 也 可 以 将 主题 表示 为 向 量 空间 中 的 一 个 点 。 这 种 方式 简单 明了 ,在 实际 中 得 
到 了 广泛 应 用 。 

那么 对 于 给 定 的 文本 集 ,如 何 获得 其 主题 呢 ? 一 种 简单 的 方法 是 中 心 向 量 法 , 即 
将 每 个 文本 经 过 分 词 、 提 取 特 征 词 \ 计 算 权重 等 步骤 后 表示 为 向 量 ,对 这 些 向 量 计算 


其 几何 中 心 。 中 心 回 量 法 将 整 : ,当主 题 比 较 凝 聚 时 ,这 种 方法 
是 可 行 的 。 
第 二 种 方法 是 聚 类 法 。 


当主 题 中 包含 多 个 不 同 的 子 主题 ,而 且 这 些 子 主题 之 间 的 凝聚 性 不 好 的 时 候 , 束 
不 太 合 适 只 用 一 个 回 量 来 表示 了 。 因 此, 聚 闫 法 束 是 为 了 将 整个 文档 回 量 按照 合适 
的 方法 进行 分 割 , 将 这 些 向 量 分 割 成 为 右 十 个 密集 区 域 , 而 每 个 区 域 用 一 个 中 心 呵 量 


11.4.3 LDA 主题 模型 


不 管 是 用 一 个 回 量 还 是 用 多 个 回 量 来 表示 主题 ,都 是 一 种 几何 的 表示 方法 ,在 主 
题 边 界 的 刻画 方面 尚 存 在 很 大 不 足 。 将 主题 看 作 一 种 词汇 空间 上 的 概率 分 布 可 以 解 
决 这 个 问题 ,因此 另外 一 大 类 用 来 表达 主题 的 方式 就 是 概率 主题 模型 。 

概率 主题 模型 在 数学 表示 上 通常 是 一 种 混合 概率 分 布 。 主 题 T 用 这 类 模型 可 
以 统一 表述 为 : 


下 
P(T)= yuplz | Ti) (11-25) 
i 一 1 


a (3 
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其 中 ,天 表示 子 主题 的 个 数 ,y; 表示 第 i 个子 主题 的 成 分 系数 ,p(x 1T;) 表 示 第 i 个 
子 主题 在 词汇 空间 上 的 分 布 ,z 即 词汇 空间 中 的 词汇 癌 量 。 

概率 主题 模型 是 从 生成 式 的 角度 进行 文本 建 模 的 , 它 在 文档 和 词汇 中 间 加 入 了 
主题 层 , 这 是 一 种 隐 含 在 单 文 本 或 多 文档 中 的 语义 信息 与 词汇 层面 上 的 属性 特征 和 
句子 层面 上 的 词汇 关系 特征 。 这 种 语义 信息 属于 粒度 比较 粗 的 语义 信息 ,因此 它 在 
分 析 文 档 层面 语义 上 的 作用 就 会 比较 突出 ,特别 是 针对 多 文本 的 和 与 悄 分 析 应 用 。 这 
方面 的 模型 近年 来 研究 得 比较 多 。 

LDA 模型 的 思路 是 为 话题 分 布 和 话题 中 对 应 词 项 的 分 布设 置 一 个 先 验 分 布 。 
由 于 话题 选择 和 词语 选择 满足 多 项 分 布 ,因此 在 LDA 模型 中 ,使 用 多 项 分 布 的 共 斩 
分 布 一 一 Dirichlet 分 布 来 描述 多 项 分 布 的 参数 分 布 。 

LDA 模型 的 文本 生成 过 程 是 首先 确定 话题 分 布 的 先 验 Dirichlet 分 布 , 随 之 确定 
话题 分 布 ,根据 这 个 话题 分 布 确定 当前 词 的 所 属 话题 ; 之 后 根据 该 话题 词 项 分 布 的 
先 验 分 布 确 定 词 项 分 布 ,与 话题 分 布 结合 选取 使 用 的 词汇 。 重 复 上 述 过 程 ,最 后 生成 
完整 的 一 篇 文本 。 

在 这 个 过 程 中 ,词汇 分 布 和 话题 分 布 剖 是 一 种 多 项 分 布 ,一 般 的 多 项 分 布 描述 
一 个 & 维 随机 变量 在 不 同 取信 下 的 概率 ,进行 N 次 实验 。 在 LDA 中 使 用 的 多 项 分 
布 是 一 种 简化 的 多 项 分 布 ,该 & 维 随 机 变量 中 只 有 一 个 值 为 1, 而 其 余 的 元 系 均 
为 0。 

Dirichlet 分 布 是 多 项 分 布 的 共 斩 分 布 ,可 以 用 下 式 形 式 化 地 表示 : 


D ( 方 二 = 全 (11-26) 


pe 证 
kel 
其 中 ,TT(a)== | lz ie ‘di, 为 Gamma 了 浮 数 ， 
0 


LDA 模型 的 概率 图 表示 如 图 11-8 所 示 。 


图 11-8 LDA 的 图 模型 
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上 图 中 包含 了 大 小 为 DD 的 文档 集 、 各 文档 中 大 小 为 N 的 词汇 集 以 及 大 小 为 K 
的 话题 集 之 间 的 生成 关系 ,在 图 中 用 矩形 表示 重复 过 程 ,图 中 的 灰色 圆圈 表示 最 后 可 
见 的 文档 元 系 , 日 色 圆 圈 表 示 不 可 见 的 文档 元 系 , 即 隐 变 量 。 在 这 个 图 中 ,a 表示 话 
题 分 布 02 的 先 验 分 布 (Dirichlet 分 布 的 控制 参数 ),7 表示 话题 & 中 词 项 分 布 Bs 的 先 
伟 分 布 ,Z,,, 表示 文档 4 中 词语 n 的 所 属 话题 ,Wj,, 即 对 应 的 词语 。 

在 LDA 模型 中 ,话题 和 词 项 的 分 布 部 是 隐 变 量 , 从 外 部 可 见 的 隐 变 量 即 为 a、pB 
这 两 个 先 验 分 布 的 变量 ,从 而 可 以 通过 调整 先 验 分 布 变 量 来 调整 话题 和 词 项 的 分 布 
情况 ,在 经 典 方法 中 使 用 变 分 推理 来 估算 这 两 组 分 布 的 参数 ，。 

LDA 参数 估计 的 男 一 个 常用 方法 是 Gibbs Sampling 方法 。Gibbs Sampling 方 
法 的 主要 思路 是 首先 随机 为 文本 中 的 单词 分 配 话题 ,之 后 统计 每 个 话题 下 面 出 现 的 
词 项 数量 和 每 篇 文档 下 的 话题 数量 ,然后 对 于 每 个 词汇 ,在 文档 不 含 当 前 为 它 分 配 的 
话题 的 情况 下 ,根据 其 他 词汇 的 话题 分 布 计算 当前 词汇 的 话题 分 布 ,为 当前 词汇 分 配 
一 个 新 的 话题 。 这 个 过 程 就 是 采样 过 程 ,每 一 轮 的 采样 过 程 对 每 个 单词 剖 进 行 一 
次 采样 ,更 新 其 话题 分 配 。 采 样 过 程 也 是 收 钙 的 , 当 04 和 Bi 收敛 的 时 候 集 止 采 样 


上 
出 


11.4.4 LDA 模型 的 Python 实现 


在 LDA 模型 原理 部 分 总 结 了 LDA 主题 模型 的 原理 ,这 里 从 应 用 
的 角度 来 看 看 主题 的 实现 及 其 使 用 模式 ， 

图 11-9 所 示 为 LDA 建 模 的 流程 。LDA 模型 的 输入 是 一 个 词 频 矩阵 ,需要 统计 
出 每 个 单词 在 每 个 文档 中 出 现 的 次 数 ,因此 需要 先 对 文档 集中 的 文档 进行 分 词 、 停 用 
词 过 滤 等 预 处 理 。 同 时 ,为 了 减 小 词汇 空间 以 及 一 些 没 有 实际 意义 的 词汇 的 影响 , 需 
要 对 切 分 之 后 的 词汇 进行 特征 选择 。 之 后 就 可 以 构造 出 词 频 和 矩阵 ,作为 LDA 模型 的 
洽 人 人。 为 了 后 续 的 主题 具有 可 读 性 ,需要 将 词 频 矩阵 的 词汇 维度 保存 起 来 ,也 就 是 构 
造 一 个 词典 。 一 般 来 说 ,LDA 模型 对 图 中 输入 的 语 料 并 没有 限制 ,只 要 文本 长 度 不 
是 太 短 即 可 。 

在 训练 得 到 一 个 LDA 模型 之 后 ,可 以 根据 具体 应 用 要 求 进行 进一步 处 理 。 训 练 
好 的 模型 实际 上 反映 了 输入 文档 集 的 茶 种 概率 分 布 , 因 此 就 可 以 使 用 该 模型 来 做 各 
种 应 用 ,包括 主题 仆 虫 中 用 于 判断 一 个 新 的 文本 是 否 属 于 该 主题 ,也 就 是 计算 新 文本 
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” 预 处 理 
(词汇 切 分 、 售 用 词 构造 文档 特征 和 矩阵 
过 滤 、 特 征 选 择 等 ) 


LDA 模 型 训练 


图 11-9 LDA 建 模 流程 


与 语 料 集 的 相似 度 。 

在 获得 词 频 矩阵 之 后 , 即 可 利用 各 种 开发 包 进 行 LDA 建 模 , 建 模 时 需要 提供 的 
最 主要 的 参数 是 主题 个 数 开 。 针 对 一 个 输入 的 语 料 ,包括 LDA 在 内 的 各 种 主题 模型 
痢 无 法 直接 推 彩 语 料 中 包含 多 少 个 主题 。 因 此 可 以 有 两 种 处 理 办 法 : 

一 是 通过 人 工 指定 的 方式 。 对 于 人 工 选 择 的 语 料 , 如 果 开 发 人 员 上 自己 比较 熟悉 ， 
人 工 指定 还 是 可 行 的 。 

二 是 通过 利用 验证 集 在 不 断 调整 K 的 情况 下 计算 模型 的 困惑 度 , 即 最 终 在 一 定 
范围 内 搜索 使 困惑 度 最 小 的 开 。 这 种 方式 需要 进行 多 次 模型 训练 ,因此 要 花费 大 量 
的 计算 时 间 。 

由 于 词汇 切 分 、. 俘 用 词 过 滤 前 面 已 经 叙述 过 ,下 面 加 春 重 介绍 LDA 主题 建 梗 及 
使 用 方法 。 在 Python 开发 环境 中 有 大王 个 比较 流行 的 机 豆 学 习 开 发 包 , 里 面 提 供 了 
对 LDA 模型 的 支持 。 常 见 的 开发 包 有 scikit-learn .gensim 和 spark MLlib ,它们 都 提 
供 了 LDA 的 相关 图 数 ,但 是 API 不 太一 样 , 文 持 的 开发 方法 也 有 所 不 同 。 这 里 主要 


介绍 scikit-learn 和 gensim 。 


1. 基于 scikit-learn 开发 包 的 实现 方法 


在 scikit-learn 中 与 LDA 建 模 相关 的 库 或 男 数 如 下 。 

(1) sklearn. decomposition. LatentDirichletAllocation: 对 LDA 主题 模型 封装 。 

(2) sklearn. feature extraction: 可 以 用 于 进行 词 频 和 矩阵 的 生成 。 

在 使 用 scikit-learn 进行 LDA 建 模 时 ,最 主要 的 API 是 sklearn. decomposition. 
LatentDirichletAllocation 类 的 调用 ,其 中 涉及 需要 提供 的 参数 ,大 家 需要 明日 其 含义 。 
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Class sklearn. decomposition. LatentDirichletAllocation(n_ topics = 10, doc_ topic _ prior = 
None, topic_ word prior = None, learning method = None, learning decay = 0.7, learning_ 
offset = 10. 0, max iter = 10, batch size = 128, evaluate every = 一 1, total samples = 
1000000.0, perp tol = 0.1, mean change tol = 0.001, max doc update iter = 100, n jobs=1, 
verbose = 0, random state = None) 


参数 解释 如 下 。 

(1) n_topics: 主题 个 数 KK ,在 很 多 的 应 用 中 按照 N /50 来 设置 ,N 为 语 料 中 的 文 

(2) doc_topic_prior: 文档 主题 先 验 Dirichlet 分 布 0。 的 参数 a。 如 果 没 有 主题 
分 布 的 先 验 知识 ,可 以 使 用 默认 值 1/K， 

(3) topic_word_prior: 主题 词 先 验 Dirichlet 分 布 B; 的 参数 7。 如 果 没 有 主题 分 
布 的 先 验 知识 ,可 以 使 用 默认 值 1/ 开 。 

(4) learning_method: LDA 的 学 习 训 练 方法 ,有 批 处 理 (batch) 和 在 线 处 理 
(online) 两 种 选择 。 批 处 理 方 法 就 是 使 用 标准 变 分 推理 的 EM 算法 ,如 采 选 择 online 
方法 , 则 可 以 在 训练 时 使 用 partial_fit() 函 数 分 步 训练 。 

(5) learning_decay: 该 参数 用 于 控制 online 方法 的 学 习 率 ,默认 是 0.7。 一般 不 
用 修改 这 个 参数 。 

(6) learning_offset: 用 来 减少 前 面 训 练 样本 批 次 对 最 终 模 型 的 影响 ,也 只 是 在 
使 用 online 时 有 效 , 取 值 要 大 于 1。 

(7) max_iter: EM 算法 的 最 大 迭代 次 数 ，。 

(8) total_samples: 在 online 模式 下 分 步 训 练 时 每 一 批文 档 样本 的 数量 。 在 使 
用 partial_fit() 函数 时 需要 。 

(9) batch_size: 每 次 EM 算法 迭代 时 使 用 的 文档 样本 的 数量 ,也 是 在 使 用 online 
时 有 意义 。 

(10) mean_change_tol: 即 EE 步 更 独 变 分 参数 的 国 值 , 有 所 受 分 参数 更 新 小 于 国 
值 则 五 步 结 束 , 转 人 M 步 。 一 般 不 用 修改 默认 值 。 

(11) max_doc_update_iter: 即 巨 步 更 新 变 分 参数 的 最 大 迭代 次 数 , 如 果 下 步 迷 
代 次 数 达 到 国 值 , 则 转 信 人 M 步 。 
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从 上 面 可 以 看 出 ,如 采 使 用 标准 变 分 推理 的 EM 算法 ,需要 设置 的 参数 就 少 得 
多 。 除 了 标准 变 分 推理 外 ,还 提供 了 一 种 称 为 在 线 变 分 推理 的 EM 算法 , 即 可 以 进行 
在 线 更 新 的 模型 训练 。 这 两 种 方式 的 选择 一 般 考 虑 文本 集 大 小 。 如 果 训 练 文本 太 
多 、 太 大 , 词 频 和 矩阵 就 会 非常 大 而 超过 内 存 大 小 ,因此 一 次 训练 一 小 批文 档 ,逐步 更 新 
模型 ,可 以 有 效 避 免 这 个 问题 。 如 采 霹 料 规 模 不 是 太 多 ,可 以 用 标准 变 分 推理 的 EM 
算法 ,这 样 能 减少 很 多 要 调整 的 参数 。 

sklearn. decomposition. LatentDirichletAllocation 提供 的 方法 如 下 。 

(1) fitCXL,yj): 利用 训练 数据 训练 模型 ,输入 的 X 为 文本 词 频 统 计 和 窍 阵 。 

(2) fit_transform(XL,yj): 利用 训练 数据 训练 模型 ,并 返回 训练 数据 的 主题 
分 布 。 

(3) get_params([Ldeepj): 获取 参数 。 

(4) partial_fit(X[ ,yj]): 利用 小 batch 数据 进行 online 方式 的 模型 训练 。 

(5) perplexity ( 义 |, doc topic distr, sub sampling ]): 计算 勾 数 据 的 


approximate perplexlity。 
(6) score(XL ,yj): 计算 approximate log-likelihood。 
(7) set_params( x*x params): 设置 参数 。 
(8) transform(X): 利用 已 有 模型 得 到 请 料 X 中 每 篇 文档 的 主题 分 布 。 
一 个 完整 的 样 例 程序 如 下 : 


Prog - 17 - LDRA- sklearn. py 

井 -#- coding: utf-8 一 # 一 

import jieba 

import codecs 

from sklearn. feature extraction. text import CountVectorizer 


from sklearn. decomposition import LatentDirichletAllocation 


# 加 载 训练 语 料 , 每 一 行 是 一 个 记录 
def load datal( ): 
documents = [|] 
raw = codecs.open( 'world— cup.raw', 'r', 'utf — 8','iqgnore'). readlines() 
for doc in raw: 
documents. append( doc ) 


return documents 
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# LDA 模型 训练 

def train(documents): 
# 加 载 停 用 词 ,文件 的 每 一 行 是 一 个 停 用 词 
stoplist = codecs. open( 'stopword. txt', 'r',encoding = "utf8'). readlines() 
stoplist = set(w. strip() for win stoplist) 


# 分词, 去 停 用 词 
texts= [|] 
for document in documents : 
doc = ""' 
for word in list(jieba.cut(document,cut all = True) ) : 
if len{word)> = 2: 井 去 除 单 字 
if word not in stoplist: 
doc = doc + " "+ word 
texts. append( doc ) 


tf vectorizer = CountVectorizer(max df = 0.95, min cdf=2) 

tf = tf vectorizer.fit transform(texts) 

dictionary = tf vectorizer.get feature names() 

lda = LatentDirichletAllocation(n components = 2, 
learning offset = 50. ， 
random state= 0) 

lda = lda.fit(tf) 

return lda,dictionary 


# 对 新 文档 判断 其 与 主题 模型 的 相似 度 
def test(lda, dictionary, test doc): 
# 新 文档 进行 分 词 
doc_cut = jieba. cut(test doc,cut all = True) 
docc= [| 
for win list(doc _ cut) : 
docc. append (w) 
# 构造 新 文档 的 词 频 癌 量 
coc= [| 
for w in dictionary: 
n=0 
for w2 in docc: 
1f w== WwW2: 
n=n+1 


doc. append(n) 


docs = [| 
docs. append!( doc) 
s= lda.perplexity( docs) # 计算 困惑 度 


return s 


if name == ' Mmain "': 


documents = load datal( ) 
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lda, dictionary = train( documents) 
print(' 困 惑 度 = ', test(lda,dictionary,，'2018 世界 杯 足 球赛 的 直播 平台 开始 试 运营 了 ')) 
print( ' 困 惑 度 = ,test(lda, dictionary,，' 大 数据 技术 给 各 个 行业 运营 注入 了 新 的 希望 ')) 


给 定 训 练 语 料 中 包含 了 世界 杯 主 题 的 文档 ,该 程序 执行 之 后 可 以 看 到 输出 的 困 
惑 度 如 下 ,与 主题 相关 的 新 文本 获得 了 较 小 的 困惑 度 , 而 与 主题 无 关 的 文本 的 困惑 上 度 
很 大 。 


I 


困惑 度 王 145354480. 9793067 
困惑 度 ==2. 5800730839653856e 十 23 


2. 基于 gensim 开发 包 的 实现 方法 


gensim 是 另 一 个 稼 用 的 机 天 学 习 库 ,其 中 也 提供 了 对 LDA 的 文 持 。 对 于 其 相 
关 文 档 的 详细 介绍 ,大 家 可 以 到 “https://radimrehurek. com/gensim/ ”查看 。 
一 个 完整 的 样 例 程序 如 下 : 


Prog - 18 - LDA - gensim. py 
#—*— coding: utf -8 一 # 一 
import Jieba, os 

import codecs 


from gensim import corpora, models, similarities 


def load datal( ): 
documents = [|] 
raw = Codecs.open( 'world— cup.raw', 'r', 'utf ~ 8','iqgnore'). readlines() 
for doc in raw: 
documents. append( doc ) 
return documents 


def preprocess(documents): 

stoplist = codecs. open( 'stopword. txt', 'r',encoding = "utf8'). readlines!() 
stoplist = set(w. strip() for w in stoplist) 
# 分 词 ,去 停 用 词 
texts= |[] 
for document in documents : 

doc = [j 

for word in list(jieba.cut(document, cut all = True) ) : 

if len(word)> = 2: 
if word not in stoplist: 
doc. append (word) 
texts. append( doc) 
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dictionary = corpora.Dictionary(texts) 
dictionary. filter extremes(no below = 3, no above= 1.0,keep n= 1000) 


dictionary. save( 'LDA. dict') 
corpus = [dictionary. doc2bow(text) for text in texts ] 
return corpus, dictionary 


def train( ): 
documents = load datal() 
corpus, dictionary = preprocess(documents) 
lda = models. LdaModel(corpus, id2word = dictionary, num topics = 2) 
井 模 型 的 保存 /加 载 
lda. savel( 'LDA. model ' ) 


def test(test _ doc) : 
lda = models. ldamodel. LdaModel. load( 'LDA. model') 
dictionary = corpora.Dictionary. load( 'LDA. dict') 


test doc = 1list(jieba.cut(test_doc ) ) # 新 文档 进行 分 词 
docs=[] 
docs. append( test doc) 


corpus = [dictionary. doc2bow(text) for text in docs ] 


p= lda. log perplexity(corpus) 


return p 
1f name == " Mmain 
train() 


print(' 困 惑 度 = ', test( '2018 世界 杯 足 球赛 的 直播 平台 开始 试 运营 了 ')) 
print(' 困 惑 度 = ',test( ' 大 数据 技术 给 各 个 行业 运营 注入 了 新 的 希望 ')) 


= 


困惑 度 
困惑 度 王 一 55.52085888385773 
> 


可 以 看 出 ,两 个 开发 包 的 LDA 建 模 在 某 些 计 算 上 还 是 有 一 定 差别 ,但 是 并 不 影 
啊 主 题 相 似 度 的 计算 。 


2 


FE 


一 一 16.083019196987152 


CE 


11.5 大 数据 可 视 化 技术 


利用 大 数据 可 视 化 方法 可 以 对 大 规模 复杂 数据 集 及 其 挖掘 结果 以 视觉 形式 进行 
呈现 ,同时 提供 交互 式 手 段 方 便 用 户 从 不 同 视点 对 数据 进行 变换 ,缩放 、 旋 转 等 操控 ， 
以 获得 大 规模 复杂 数据 集 的 全 方位 映像 ,为 用 户 在 视觉 层面 理解 数据 中 的 现象 和 规 
律 提供 了 有 效 的 途径 ， 
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11.5.1 大 数据 可 视 化 方法 概述 


大 数据 的 多 样 性 、 复 末 性 和 多 变性 决定 了 大 数据 可 视 化 在 分 析 和 应 用 中 的 必要 
性 。 目 前 ,各 种 大 数据 应 用 对 数据 可 视 化 的 需求 越 来 越 高 ,数据 可 视 化 的 地 位 也 越 来 
越 重 要 ,人 们 迫切 需要 以 展 好 的 用 户 体 验 的 方式 来 发 现 数据 的 内 在 价值 。 当 环境 中 
存在 符合 用 户 心 理 的 直观 化 可 视 化 结构 时 ,用 户 可 以 直接 从 里 面 提取 出 有 用 的 信息 ， 
而 不 需要 经 过 逻辑 推 理 等 过 程 , 达 到 了 快速 吸取 信息 的 目的 ,从 而 能 满足 业务 人 员 的 
分 析 震 要 和 局 层 领导 的 决 宋 需要。 此 外 ,从 大 数据 的 分 析 和 挖掘 过 程 来 看 ,有 效 地 融 
合 人 机 各 目的 优 努 ,在 可 视 化 交互 过 程 中 进行 模型 修正 ,对 于 获得 更 加 可 信 的 纺 朱 是 
韭 第 必要 的 。 

大 数据 在 可 视 化 输出 展示 中 ,根据 不 同 的 应 用 场景 和 信息 处理 过 程 ,可 以 分 为 多 
维 数据 可 视 化 .文本 可 视 化 .网 络 可 视 化 .时 空 数 据 可 视 化 等 。 


1. 多 维 数据 可 视 化 


多 维 数据 可 视 化 指 对 3 个 维度 以 上 的 数据 进行 的 可 视 化 展示 。 其 第 用 的 方法 
如 下 。 

(1) 散 点 图 : 散 点 图 将 数据 集合 中 的 每 一 行 记 录 映 射 成 为 二 维 或 者 三 维 坐 标 系 
中 的 实体 。 例 如 ,如 果 要 描述 房价 和 面积 的 关系 ,就 可 以 用 横竖 坐标 分 别 表示 房价 和 
面积 。 

(2) 投影 法 : 投影 法 是 可 以 同时 表现 多 维 数据 的 可 视 化 方法 。 它 的 基本 思想 是 
把 多 维 数据 通过 某 种 组 合 ,投影 到 低 维 (1 一 3 维 ) 空 间 上 ,通过 极 小 化 某 个 投影 指标 ， 
寻找 出 能 反映 原 多 维 数据 结构 或 特征 的 投影 。 

(3) 平行 坐标 法 : 平行 坐标 是 应 用 和 研究 最 为 广泛 的 一 种 多 维度 可 视 化 技术 ,其 
核心 是 用 二 维 的 形式 表示 N 维 空间 的 数据 。 它 的 基本 原理 是 将 一 维 数 据 属性 空间 
用 一 条 等 距离 的 平行 轴 映 射 到 二 维 平面 上 ,每 条 轴线 对 应 一 个 属性 维 , 坐 标 轴 的 取 值 
范围 从 对 应 属性 的 最 小 值 到 最 大 值 均匀 分 布 ,这样 每 一 个 数据 项 都 可 以 用 一 条 折线 
段 表 示 在 一 条 平行 轴 上 。 


2. 文本 可 视 化 


文本 可 视 化 方法 试图 将 文本 内 容 以 直观 方式 展现 出 来 ,而 不 是 局 限于 文字 上 的 
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描述 。 这 种 下 观 表达 方法 要 尽量 保留 文本 中 重要 的 信息 和 关系 ,因此 文本 可 视 化 过 
程 一 般 需要 结合 文本 分 析 的 技术 ,例如 中 文 分 词 .关键 词 识别 .主题 聚 类 等 。 可 以 看 
出 ,可 视 化 的 过 程 与 文本 分 析 过 程 实际 上 有 共同 的 步骤 ,可 以 实现 自然 的 融合 。 

文本 分 析 可 视 化 可 以 分 为 静态 可 视 化 和 动态 可 视 化 。 静 态 可 视 化 主要 是 分 析 文 
本 包含 的 主题 和 各 个 主题 之 间 的 关系 ,动态 可 视 化 是 指 主题 随 着 时 间 变 化 的 关系 ,两 
者 在 可 视 化 的 表现 形式 上 也 有 所 不 同 。 

静态 可 视 化 最 第 见 的 是 标签 云 格式 的 形式 ,标签 云 是 将 HTML 潜入 到 网 页 中 ， 
它 以 字母 次 序 .随机 次 序 .重要 次 序 等 排列 ,除了 标签 云 , 还 可 以 用 树 的 形式 可 视 化 展 
现 相 似 度 ,或 者 以 放射 状 层次 圆 环 的 形式 展示 文本 结构 ,或 者 将 一 维 投影 到 二 维 展 
现 ,用 层次 化 点 排 布 的 投影 方法 进行 展现 ; 动态 可 视 化 与 时 间 有 关 , 需 要 引入 时 间 轴 
作为 一 个 维度 ,一 般 可 以 用 气泡 、 河 流 等 模式 的 图 进行 展示 。 图 11-10 是 文本 可 视 化 
的 示意 图 例子 。 


气象 万 和 干 
中 + 杭 城 国 
1 襄 砍 宋 摆 _ 
ee 环境 
i 提 中 旅游 i 
景点 上 海 加 际 扬州 喜 窒 、 油 二 ”杭州 工具 


PT 
] ”群众 人 会 时 政 和 


‘A = - 心 - ES 。 | 玉 | 
gd 620 机 
中 < 一 中 方 “站 记 


惊 毛 奥巴马 FE a ， 共 i 刘 地 点 
a 损失 硕果 普京 Re 国家 一 个 
目 国家 机 密 ”， 文 排 ” 蒙古 | 风 风 光 光 眼球 
人” 微观 晚 守 起 点 以 失 术 条、 国安 ”ws 言 儿 在 本 
i 种 拍 光 门 诺 二 生 ”领导 
Mn, 财富 座驾 


图 11-10 文本 可 视 化 的 例子 


3. 网 络 可 视 化 


在 互联 网 大 数据 中 有 一 大 类 型 的 数据 就 古 连接 型 数据 ,它们 直接 或 间接 地 存在 
于 许多 互联 网 应 用 中 。 这 种 数据 的 特点 古 它 们 在 逻辑 上 构成 了 一 种 网 络 图 结构 ,图 
中 的 太 扣 是 数据 单元 , 太 扣 之 间 的 连接 是 数据 之 则 的 关系 。 微 博 中 的 人 际 网 络 数 据 
就 是 一 种 直接 型 的 连接 数据 ,反映 了 人 人 之 间 的 关注 和 粉丝 关系 。 网 络 论 坛 中 的 用 
尸 天 系 则 是 一 种 间接 型 的 数据 ,用 户 作 为 网 络 中 的 市 点 ,而 用 户 所 发 的 帖子 之 则 的 关 
系 反 映 了 用 户 之 间 的 关系 ,需要 通过 对 帖子 关系 进行 分 析 之 后 才能 得 到 。 

管 古 哪 种 类 型 的 数据 ,它们 在 逻辑 箔 构 上 部 可 以 看 作 一 种 网 络 图 结构 ,这 种 网 
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络 图 结构 可 以 是 有 回 图 ,也 可 以 是 无 问 图 ,连接 可 以 是 有 权 的 ,也 可 以 是 无 权 的 。 网 
络 数据 的 另 一 个 特点 是 网 络 可 以 是 静态 的 ,也 可 以 是 动态 的 。 网 络 的 动态 性 体现 在 
两 个 方面 ,一 是 网 络 规模 是 动态 变化 的 ,二 是 网 络 的 厄 点 及 关系 是 动态 变化 的 。 

网 络 可 视 化 技术 分 为 9 类 ,包括 基于 力 守 引 布 局 (Force-Directed Algorithm,， 
FDA) 基于 地 图 布局 (Geographical Map) .基于 圆 形 布局 (Circular) ,基于 相对 空间 布 
局 (Spatial Calculated) 、 基 于 聚 类 布局 (Cluster) 、 基 于 时 间 布 局 (Time-oriented) .基于 
层 布局 (Substrate-based) ,基于 手工 布局 (Hand-made) 和 基于 随机 布局 (Random) 的 
网 络 可 视 化 技术 。 

对 于 大 规模 了 网络 , 当 其 节点 和 边 数 达 到 数 以 百 万 计 的 时 候 , 以 上 简单 的 可 视 化 由 
于 边 和 点 会 聚集 、 重 全 ,将 不 再 适用 ,最 常见 的 一 种 处 理 方 法 是 对 边 进行 从 集 人 处理 , 常 
用 的 有 基于 边 的 捆绑 方法 和 基于 骨架 图 的 可 视 化 技术 ; 男 一 种 是 将 大 规模 图 转化 为 
层次 化 树 结 构 , 人 然后 通过 多 尺度 交互 来 对 不 同 层次 图 进行 可 视 化 。 

大 数据 可 视 化 工具 目前 分 为 商业 和 开源 两 部 分 ,主要 有 Pentaho、Tableau、Many 
Eyes,Platfora, Datameer Analytics Solution and Cloudera, JasperReports, Dygraphs 
等 ,以 下 选择 主要 的 介绍 。 

Pentaho 是 世界 上 最 流行 的 开源 商务 乔 能 软件 ,以 工作 流 为 核心 ,强调 面 癌 解决 
方案 而 非 工 具 组 件 ,基于 Java 平台 的 商业 智能 (Business Intelligence,BI) 套 件 , 它 包 
括 报表 、 人 分析, 图表、 数 据 集 成 ,数据 挖掘 等 ,包括 了 商务 智能 的 方方面面 。Pentaho 主 
要 用 于 数据 的 整合 ETL 处 理 以 及 报表 展现 等 应 用 ,提供 了 Windows 平台 和 Linux 
商业 版 ,其 下 载 地 址 是 “http://www. pentaho. com/”。 

Tableau 是 商业 软件 , 它 将 数据 运算 与 可 视 化 完美 地 融合 在 了 一 起 ,控制 台 可 完 
全 目 定 义 配 置 ,可 以 用 手动 拖 忠 方式 简单 实现 各 种 图 表 的 生成 , 它 有 Tableau 
Desktop、Tableau Server、Tableau Reader 等 组 件 , 其 中 Tableau Desktop 可 以 实时 分 
析 实 际 存 在 的 任何 结构 化 数据 ,生成 可 视 化 图 表 、 坐 标 图 、 仪 表盘 与 报告 ; Tableau 
Server 是 服务 应 用 程序 ,可 以 迅速 简便 地 共享 Tableau Desktop 中 最 新 的 交互 式 可 视 
化 内 容 以 及 仪表 盘 和 报告 ; Tableau Reader 是 免费 的 计算 机 应 用 程序 ,可 以 轻松 查看 
内 置 于 Tableau Desktop 的 分 析 视 角 与 可 视 化 内 容 , 并 进行 与 工作 薄 的 交互 。 
Tableau 的 官方 网 站 为 “https://www. tableau. com/”。 

专业 型 大 数据 可 视 化 工具 除了 以 上 之 外 ,在 业界 广泛 应 用 的 还 有 Gephi、Weka、 
R 等 。 其 中 R 提供 了 丰富 的 开源 分 析 包 ,可 以 做 一 些 简 单 的 图 形 化 展现 ; Gephi 是 进 
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行 社交 图 请 数据 可 视 化 分 析 的 工具 ,不 仪 能 人 处理 大 规模 数据 集 并 生成 深 膨 的 可 视 化 
图 形 ,还 能 对 数据 进行 清洗 和 分 类 ; Weka 是 一 个 免费 的 数据 挖掘 工作 平台 ,集合 了 
大 量 数 据 控 掘 的 机 青学 习 包 以 及 回归 、 聚 类 关联 规则 , 它 还 实现 了 在 新 的 交互 式 界 
面 上 的 可 视 化 功能 。 


11.5.2 Python 开源 库 的 使 用 


用 于 数据 可 视 化 的 主要 Python 开源 库 有 matplotlib、wordcloud 等 ,本 方 介 绍 这 
些 开 源 库 的 功能 和 使 用 方法 。 


1. matplotlib 


该 开源 库 可 以 实现 的 图 形 包括 散 点 图 ,折线 图 、 直 方 图 、 柱 状 图 、 箱 线 图 、 饼 图 等 ， 
用 于 数据 关系 ,数据 分 布 .数据 对 比 和 数据 构成 等 场景 的 展示 。 散 点 图 用 于 展现 两 个 
变量 间 的 关系 ,可 以 通过 设置 不 同 的 颜色 在 同一 个 图 中 同时 展示 多 组 关系 。 有 下方 图 
则 属于 数据 分 布 的 展示 ,适合 查看 (或 发 现 ) 数 据 分 布 ,并且 使 用 不 同 透明 度 可 以 实现 
十 方 图 的 登 加 ,从 而 在 同一 个 坐标 中 展示 多 组 数据 分 布 。 

其 具体 使 用 方法 可 以 参考 在 线 教程 ,网 址 为 “https://matplotlib. org/tutorials/ 
index. html”, 也 可 以 在 Python 的 开发 环境 中 使 用 help 查询 相关 国 数 的 帮助 和 调用 
方法 。 图 11-11 是 在 Python 目 融 的 开发 环境 中 查看 plot() 图 数 相关 说 明 的 方法 , 即 
先 import, 然 后 help, 就 可 以 看 到 相关 的 输出 介绍 。 


>>> ImDort matplotlib 
>>> help (matplotlib. pyplot. plot) 
Help on function plot in module matplotlib. pyplot: 


plot (*args, **kwargs) 
Plot lines and/or markers to the 
:class: matplotlib. axes. Axes . *args* js a variable length 
argument， allowing for multiple *x*, *y* pairs with an 
optional format string. For example, each of the following is 


legal:: 
plot (x, y) # plot x and yy using default line style and color 
plot(x, y, bo ) # plot x and y using blue circle markers 
plot (vy) # plot Yy usine x as index array 0. .N 一 1 
plot(ly, r+ ) # ditto, but with red plusses 


图 11-11 查看 帮助 信息 的 方法 


下 面 通过 一 个 例子 来 说 明 使 用 方法 ,在 以 下 代码 中 注释 标注 了 使 用 的 主要 步骤， 
包括 5 个 步骤 。 需 要 注意 的 是 ,matplotlib 在 默认 情况 下 不 能 显示 汉字 ,为 了 使 用 汉 
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字 , 需 要 事先 加 载 汉字 字体 ， 


Prog - 19 - matplotlib - examples. py 
一 *— coding: utf 8 —*— 

import numpy as np 

import matplotlib. font manager as fm 
import matplotlib. pyplot as plt 


# 加 载 汉 字 字体 
hzfont1l1 = ftm.FontProperties( fname = 'C:\Windows\Fonts\simkai. ttf', size= 16) 


#1. 使 用 figure() 函 数 创建 图 表 
plt. figure(1, dpi = 50) 


井 2. 画 图 ,定义 X 轴 的 定义 域 ,中 间 间 隔 100 个 元 对 
X= np.linspace( — 2* np.pi,2 * np.pi,100) 
plt. plot(x, np. sin(x)) 


#3. 设 置 Xx,Y 轴 的 文字 
plt. xlabel("X") 
plt. ylabel("Y") 


# 4. 设置 图 的 标题 .图例 

plt.title(" 正 弦 图 数 ",fontproperties = hzfont1) 
plt. legend!( ) 

井 5. 显示 图 形 

plt. show( ) 


图 11-12 是 输出 结果 。 


正 咏 图 数 
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2, wordcloud 


wordcloud 库 是 Python 环境 下 词 云 展 示 的 第 三 方 库 , 也 就 是 以 词语 为 基本 单位 
来 卫 观 展示 文本 信息 内 容 , 它 在 互联 网 大 数据 分 析 中 广 沁 应 用 于 对 文本 关键 词 的 生 
观 显示 。wordcloud 把 词 云 当 作 一 个 对 象 , 将 文本 中 词语 出 现 的 频率 作为 一 个 权重 绘 
制 词 云 ,而 词 云 的 大 小 、 颜 色 、 形 状 等 虱 古 可 以 设 定 的 。 生 成 一 个 词 云 文件 一 般 需 要 
3 步 , 即 配置 对 象 参 数 、 加 载 词 云 文本 信息 、 输 出 词 云 文件 。 

其 官方 网 址 如 下 : 


https://github. com/amueller/word cloud 
https://amueller. github. io/word cloud/ 


在 第 二 个 网 址 中 可 以 找到 相应 的 API 说 明 , 也 可 以 在 安装 后 通过 help 来 查阅 。 
其 主要 的 API 封装 在 以 下 类 和 函数 中 : 
1) wordcloud 


class wordcloud. WordCloud (font path = None, width = 400, height = 200, margin = 2, ranks 
only = None, prefer horizontal = 0.9, mask = None, scale = 1, color func = None, max words = 
200, min font size = 4, stopwords = None, random state = None, background color = 'black '， 
max font size= None, font step= 1, mode = 'RGB', relative _ scaling = 'auto', regexp = None, 
collocations = True, colormap = None, normalize plurals = True, contour width= 0, contour 
color = 'black', repeat = False, include numbers = False, min word length= 0) 


可 见 构 造 方法 提供 了 很 多 参数 ,可 以 用 来 指定 字体 、 云 图 的 大 小 、 云 图 中 最 多 的 
字数 .背景 颜色 等 ,大 多 情况 下 可 以 使 用 默认 值 。 
该 类 提供 的 主要 方法 如 下 。 
。 generate(text); 直接 从 文本 生成 云图 。 
。 generate_from_frequencies(frequencies| ，… | ) : 根据 词汇 和 频率 组 成 的 字典 
生成 云图 。 
。 generate from text(text): 直接 从 文本 生成 云图 。 
。 process_text(text); 将 文本 切 分 成 为 词汇 ,并 去 除 信 用 词 ， 
。 recolor([random_state，color_func，colormapj]): 使 用 指定 的 颜色 或 图 片 重 
新 上 色 。 
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。 to_file(filename): 将 云图 保存 到 文本 中 。 

2) ImageColorGenerator(imagel , default_color |) 

使 用 RGB 图像 image 生成 颜色 ,将 会 根据 image 中 一 定 和 矩形 框 内 的 平均 颜色 来 
设 定 云图 中 的 字体 颜色 。 

3) random_color_func([word， font_size，…]) 

这 是 默认 的 字体 颜色 设置 方法 。 

基于 这 3 个 类 和 函数 ,生成 词 云 图 的 具体 步骤 如 下 : 

(1) 使 用 WordCloud 设 定 云图 的 大 小 .字体 等 信息 ,构造 WordCloud 对 象 。 

(2) 根据 WordCloud 的 generate from frequencies 等 方法 从 文本 或 (词汇 、 频 
次 ) 字 典 中 生成 云图 。 

(3) 如 果 需 要 自己 指定 云图 的 背景 图 片 模式 , 则 通过 ImageColorGenerator 生成 
背景 模式 ,并 通过 recolor 重新 上 色 。 

(4) 通过 WordCloud 的 to_file 方法 将 云图 输出 到 文件 。 

此 外 ,可 以 结合 matplotlib 将 云图 显示 在 屏幕 上 ,并 设置 相关 信息 。 

以 下 是 一 个 例子 ,用 于 从 指定 的 文本 中 生成 关键 词 的 词 云图 ,并 参考 上 述 步 又 ， 
在 代码 中 做 了 标注 。 


Prog - 20 - wordcloud - example. py 

import jieba 

from scipy. misc import imread 井 这 是 一 个 处 理 图 像 的 图 数 
from wordcloud import WordCloud, ImageColorGenerator 
import matplotlib. pyplot as plt 


text = '''1905 年 ,于 布 任 、 邵 力 子 等 原 震 旦 公 学 学 生 脱 离 震 旦 ,拥戴 马 相 伯 在 吴淞 创办 复旦 公 学 . 
校 名 摘 取 自 « 尚 书 大 传 :处 夏 传 >" 卿 云 烂 分 , 纠 强 强 分 ; 日 月 光华 , 旦 复旦 今 " 两 句 中 的 "复旦 "二 
字 , 本 义 是 追求 光明 , 富 含 自主 办 学 、 复 兴 中 华 之 意 . 马 相 伯 、 严 复 等 先后 担任 校长 .1913 年 李登辉 
开始 担任 校长 ,一 直到 1936 年 .在 他 长 达 23 年 的 校长 任 内 ,复旦 发 展 成 为 一 所 以 培养 商科 、 经 济 、 
新 闻 教育、 土木 等 应 用 型 人 才 闻 名 的 ` 有 特色 的 私立 大 学 ,形成 了 从 中 学 到 研究 院 的 完整 的 办 学 
本 


# 统计 词 频 的 字典 
wordfreq = dict( ) 


# 装载 停 用 词 

f = open("stopword. txt", encoding = 'UTF8') 
fl=f.readlines() 

stoplist = [|] 

for line in fl]: 
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stoplist. append(line. strip('\n')) 
f. close( ) 


# 切 分 、 停 用 词 过 滤 、 统 计 词 频 
for w in list(jieba.cut(text,cut all = False)): 
if len(w)> 1 and w not in stoplist: 
if w not in wordfredq: 
wordfreq[lw] = 1 
else: 
wordfreq[w)] = wordfreq[w] + 1 


# 指 定 字 体 和 背景 模式 图 片 

font = r'C:\Windows\Fonts\simfang. ttf'" 

back color = imread( '2019. png') 

image colors = ImageColorGenerator(back color) 


# 构建 WordCloud 对 象 

we = WordCloud(collocations = False, font path = font, 
random state = 42， 
max font_ size= 200,mask = back_ color, 
background color = 'white", 
max words = 100) 


# 调 用 方法 生成 词 云 图 
WC = wc.generate from frequencies(wordfreq) 
WC. recolor(color func = image colors) 


# 保 存 图 片 

we. to file( 'wordcloud. png') 
其 中 ,背景 模式 文件 是 一 个 “2019” 手 写 体 的 图 片 文件 ,如 图 11-13 所 示 , 这 在 程序 中 
由 back_color 三 imread('2019. png') 指 定 。 运 行 后 ,用 户 可 以 在 当前 目录 中 发 现 已 
经 生成 了 wordcloud. png 文件 ,如 图 11-14 所 示 。 


图 11-13 背景 图 片 
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图 11-14 生成 的 关键 词 云 图 


1. 学 习 使 用 jieba 进行 中 文 文本 的 词汇 切 分 的 方法 。 

- 么 是 停 用 词 ? 如何 用 Python 进行 停 用 词 过 滤 ? 

么 是 向 量 空间 模型 ? 使 用 Python 构建 一 个 文本 集 的 向 量 表示 ，。 
简 述 文本 分 类 的 一 般 流 程 。 

. 描述 LDA 主题 建 模 的 Python 实现 ,并 描述 每 个 主题 所 表达 的 内 容 。 
关 习 使 用 matplotlib ,wordcloud 进行 可 视 化 。 


吉 证 十 


让 
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互联 网 大 数据 获取 技术 的 应 用 


本 章 针 对 几 个 互联 网 大 数据 的 典型 应 用 介绍 数据 采集 技术 的 应 用 方法 ,条 例 包 
括 新 闻 信 息 的 采集 .提取 和 了 可视化 ,以 及 爬虫 用 于 SQL 注入 检测 ,目的 是 为 了 针对 特 
定 的 问题 进行 分 析 设 计 , 给 出 完整 的 解决 过 程 。 


12.1 单 见 应 用 模式 


互联 网 大 数据 的 应 用 模式 有 很 多 种 类 型 ,具体 模式 主要 取决 于 应 用 需求 ,但 从 日 
前 看 可 以 归结 为 以 下 儿 种 。 在 本 革 后 续 的 小 三 中 结合 实际 例子 讲解 运用 这 些 大 数据 
处 理 方 法 对 怜 虫 采 集 到 的 数据 进行 处 理 。 


1. 分 类 与 聚 类 


分 类 与 聚 类 是 大 数据 应 用 中 最 第 见 的 两 种 模式 ,两 者 共同 的 特点 虱 古 将 数据 桩 
本 看 作 是 市 有 一 定 关 别 的 ,区 别 在 于 对 于 分 类 而 言 , 这 种 类别 及 其 特征 是 在 分 类 之 前 
就 已 知 的 ,而 聚 类 是 对 未 知 类 别 标志 的 样本 进行 划分 ,这 种 划分 通常 是 基于 数据 的 肾 
集 性 等 原则 ,最 终 税 划分 到 同一 个 谋 的 所 有 样本 具有 相同 的 类 别 标志 。 
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在 大 数据 应 用 中 ,由 于 数据 类 型 多 样 化 ,所 以 分 类 与 聚 类 束 演 化 出 更 多 的 问题 和 
应 用 。 从 数据 类 型 看 ,互联 网 上 存在 大 量 的 文本 数据 ,因此 对 文本 的 分 类 和 聚 类 也 就 
成 为 大 数据 应 用 中 的 重点 。 为 外 ,大 数据 具有 一 定 的 流动 性 ,因此 从 数据 流 的 角度 来 
拓展 分 类 与 聚 类 的 人 研究 和 应 用 也 越 来 越 多 见 ， 


2. 相关 性 分 析 


相关 性 分 析 古 大 数据 应 用 中 管见 的 方式 之 一 ,是 对 两 个 或 多 个 具有 联系 的 变量 
元 系 进 行 分 析 , 从 而 衡量 它们 之 则 的 密切 程度 。 两 个 变量 之 则 的 相关 程度 通过 相关 
系数 来 表示 ,根据 相关 系数 的 大 小 可 以 分 为 完全 相关 ,不 完全 相关 和 不 相关 ; 根据 相 
天 系数 的 正 负 可 以 分 为 正 相 关 和 和 仙 相 关 。 

对 于 任何 两 组 数据 ,可 以 从 数据 的 产生 机 理 和 数据 的 表现 两 个 层面 来 分 析 它 们 
之 则 的 关系 ,这 种 关系 可 以 进一步 馈 用 来 进行 预测 特征 工程 等 分 析 应 用 。 数 据 的 产 
生机 理 主要 从 数据 之 间 的 依赖 关系 出 发 ,例如 沉迷 游戏 导致 学 习 成 绩 下 降 , 更 侧重 于 
分 析 数 据 之 间 在 逻辑 上 的 联系 ,因此 也 可 以 看 作 是 因果 关系 的 分 析 。 在 大 数据 分 析 
应 用 中 强调 相关 性 ,而 不 重视 因 末 分 析 。 


3. 主题 建 模 


在 许多 应 用 中 不 断 产 生 各 种 文本 信息 ,文本 信息 作为 典型 的 非 第 构 化 信息 ,在 语 
义 处 理 和 理解 上 具有 很 大 的 挑战 性 ,人 们 在 这 个 方 回 上 不 断 探 寺 ,提出 了 一 系列 新 的 
模型 和 方法 。 其 中 ,主题 建 模 就 是 一 种 相对 比较 成 熟 ` 有 效 的 方法 ,为 文本 型 大 数据 
的 涂 度 分 析 挖 掘 提供 了 一 种 途径 。 

主题 建 模 用 于 对 给 定 的 文本 集 进 行 主题 的 目 动 发 现 ,在 新 闻 文 本 、 网 络 论坛 内 容 
等 类 型 的 文本 分 析 中 使 用 得 较为 普 届 。 例 如 ,在 新 闻 分 析 中 可 以 使 用 主题 建 梗 方法 ， 
从 一 个 新 闻 文 本 集中 目 动 提取 出 所 包 作 的 主题 ,通过 所 提取 的 主题 可 以 快速 了 解 这 
些 新 闻 中 谈论 的 主题 的 概貌 。 


4. 大 数据 的 可 视 化 


大 数据 具有 典型 的 多 维特 征 , 例 如 一 名 学 生 可 以 由 (姓名 ,性 别 ,年 龄 ,专业 ,出 生 
地 ,学 习 成 绩 ) 来 描述 ,一 本 图 书 可 以 由 ( 书 名 ,出 版 社 , 出 版 日 期 ,类 别 , 定 价 , 页 效 ) 来 
描述 ,一 篇 新 闻 报 道 可 以 由 (标题 ， 日 期 ,关键 词 1 ,关键 词 2 ,关键 词 ee 关键 词 17 ) 
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来 描述 。 

通过 百 观 的 方式 来 展示 高 维 大 数据 集 具 有 一 定 的 现实 意义 。 由 于 维度 多 , 仅 通 
过 元 组 的 形式 来 展示 数据 集 不 够 卫 观 ,需要 用 合适 的 可 视 化 方法 来 表示 ; 为 一 方面 
数据 量 大 ,以 一 定 的 可 视 化 方法 可 以 让 用 户 更 加 容 多 发 现 和 理解 数据 中 隧 含 的 特性 ， 
因此 在 大 数据 处 理应 用 中 通常 辐 合 可 视 化 方法 对 噩 维 大 数据 集 进行 展示 。 


5. 用 于 安全 监测 


基于 互联 网 的 各 类 Web 信息 系统 可 能 存在 一 定 的 安全 问题 ,例如 SQL 注入 里 
站 脚本 攻击 等。 针对 这 些 安 全 问题 的 扫描 检测 通常 基于 人 工 方 式 , 对 每 个 特定 的 页 
面 交 互 输入 一 些 特定 的 字 付 串 ,根据 页 面 返 回 的 纺 采 来 判断 是 否 存 在 漏洞 。 然 而 这 
种 方式 效率 低下 ,网络 朴 虫 技术 可 以 用 于 目 动 监测 安全 漏洞 ,通过 URL 目 动 判断 页 
面 上 的 交互 点 , 目 动 问 Web 服务 条 发 起 动态 请 求 , 根 据 啊 应 纺 采 页 面 判 断 是 否 存 在 
湄 洞 。 

除了 上 述 分 类 与 聚 类 相关 性 分 析 、 主 题 建 模 , 可 视 化 方法 及 安全 监测 外 ,针对 扑 


虫 抓 取 到 的 互联 网 大 数据 还 有 频繁 模式 、 异 和 常 点 、 回 归 分 析 等 硅 干 种 典型 的 大 数据 应 
用 模式 。 


12.2 新 闻 阅 读 希 采集 与 分 析 


12.2.1 目标 任务 


互联 网 上 每 天 都 会 有 很 多 新 闻 发 布 出 来 ,人 们 往往 没有 太 多 精力 去 逐 篇 阅读 , 因 
此 就 有 了 设计 新 闻 阅读 器 的 需求 。 本 节 介 绍 了 新 闻 阅读 器 的 构建 ,主要 是 为 了 展示 
网 络 疏 虫 在 实现 这 个 任务 时 的 作用 。 

要 获取 新 闻 网 站 某 些 特定 领域 的 新 闻 , 通 常 的 思路 是 先 找到 新 闻 的 列表 页 ,再 对 
列表 页 里 所 有 新 闻 的 链接 进行 提取 ,然后 依次 对 这 些 新 闻 正 文 页 进行 内 容 的 获取 。 
在 这 个 基本 思路 下 ,新 闻 阅 读 器 的 具体 任务 可 以 从 互联 网 新 闻 信息 的 采集 ,提取 , 存 
储 、 控 掘 和 可 视 化 等 方面 进行 约定 ,具体 如 下 : 

(1) 不 失 一 般 性 ,这 里 以 新 浪 新 闻 中 的 国内 新 闻 版 块 为 信息 源 。 

(2) 自动 采集 新 闻 列 表 中 的 每 个 条 目 , 包 括 标题 和 发 布 时 间 。 
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片 。 


(3) 对 每 条 新 闻 报 道 进一步 采集 主体 内 容 , 包 括 文本 信息 和 医 

(4) 将 采集 到 的 新 闻 报 道 存储 到 文件 中 。 

(5) 对 于 新 闻 文 本 内 容 , 以 词汇 为 基本 单位 ,对 所 采集 到 的 新 闻 进 行 关 键 词 的 可 
视 化 。 

(6) 对 于 新 闻 文 本 内 容 , 进 行 主题 分 析 , 对 主题 进行 可 视 化 。 

图 12-1 所 示 为 新 闻 阅 读 器 的 新 闻 来 源 , 即 新 浪 新 闻 中 心 的 国内 新 闻 , 以 最 新 消 
奶 作 为 人 口 ,能 够 保证 每 次 都 采集 到 最 新 的 新 闻 报 道 。 这 是 一 个 列表 式 的 结构 ,每 篇 
新 闻 的 具体 内 容 在 单 击 标题 后 可 以 得 到 。 


| roll.news.sina.com.cn/news/gnxw/gdxwl/index.shtml 
东 ”社会 ”军事 航天 航空 天 气 | 体育 娱乐 财经 科技 公益 | 视频 评论 访谈 图 片 调查 | 淤 


新 闻 中 心 > 国内 新 闻 > 各 地 新 闻 | 


国 新 闻 息 图 片 自视 频 | 愉 | 术科 


:|| :||s | -| rs | 


" 进 博 会 | ] 寺 网 售 1300Fy0 一 汶 ? 上 海 和 警方 : 候 的 刚 信 (2018 年 11 月 06 昌 07:45) 
" 坤 州 人 大 常委 会 原 主任 骆 炳 峰 有 骨 获 减刑 八 个 月 (2018 年 10 月 199 12:27) 

" 辽宁 越狱 事件 调查 : 部 分 监狱 管理 人 员 非 在 编 干警 (2018 年 10 月 16 日 21:25) 

"中国 驻 美 太 使 回击 白 言 指 毒 坦言 不 知 白宫 谁 说 了 算 (2018 年 10 月 16 日 10:45) 
" 扬子 稿 保 护 区 遭 企业 侵占 当地 官员 和 首 称 : 谁 品 不 能 (2018 年 10 月 16 日 08:33) 

- 人 民 日 报 钟 轩 理 文章 :贸易 战 阻挡 不 了 中 国 前 进步 做 【2018 年 10 月 15 日 06:59j 
" 正 媒 称 中 国 游客 事件 或 由 中 方 故意 导演 中 使 馆 驶 斥 (2018 年 09 月 18 日 04:51) 
" 台北 捷 运 传 儿 徒 持 几 刺 人 女子 胸口 被 划 伤 19 厘 米 (2018 年 09 月 17 日 20:54) 


图 12-1 新 闻 列 表 


在 这 两 类 页 面 中 都 包含 有 导航 .推荐 信息 .广告 等 大 量 不 是 新 闻 阅 读 需 所 需要 的 
内 容 ,需要 在 设计 和 实现 时 进行 过 小。 


12.2.2 总 体 思 路 


新 闻 阅 读 需 的 总 体 流 程 如 图 12-2 所 示 ,总 体 上 包含 了 新 闻 信 息 获 取 和 新 闻 信 息 
首 移 通过 疏 虫 获取 新 闻 列 表 ,提取 列表 中 的 每 个 超 链 接 ,然后 根据 超 链 接 获 取 每 
个 新 闻 页 面 ,提取 其 中 的 新 闻 标 题 . 正 文 , 并 进一步 获取 新 闻 的 配 图 ,再 将 这 些 信 息 存 
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获取 新 闻 列 表 天 键 词 展示 主题 展示 


狂 取 每 个 新 闻 
页 面 


提取 新 闻 标 题 、 
正文 


z : 以 文本 文件 存储 正文 
获取 新 闻 配 图 本 图 原样 存储 


图 12-2 新 闻 阅 读 絮 处理 流程 图 


间 汇 切 分 主题 建 模 


在 新 闻 挖 气 与 可 视 化 环 方 , 冯 先 对 新 闻 正 文 进行 词汇 切 分 ,过 滤 集 用 词 后 ,一 方 
面 基于 词 频 进 行 可 视 化 ,为 一 方面 对 新 闻 进 行 主题 建 模 , 青 对 每 个 主题 进行 可 视 化 ， 
为 用 户 快 速 浏览 主题 提供 手段 。 

本 克 的 剩余 部 分 就 介绍 了 该 流程 图 中 的 主要 技术 及 其 Python 实现 。 


12.2.3 新 闻 内 容 采 集 与 提取 


1. HTML 内 容 解析 


从 HTML 页 面 获 取 内 容 需要 用 到 HTML 解析 库 , BeautifulSoup 是 Python 中 
经 前 用 到 的 HTML 解析 库 , 像 lxml 一 梓 , 它 也 能 目 动 补 全 缺失 的 HTML 标签 。 这 
里 使 用 BeautifulSoup 支持 的 CSS 选择 器 语法 来 进行 内 容 的 提取 。 

根据 第 6 章 的 介绍 ,要 使 用 BeautifulSoup ,首先 要 生成 一 个 BeautifulSoup 对 象 ， 
后 续 操 作 痢 以 这 个 对 象 为 主体 : 

res = requests. get(ur]l) 

res. encoding = 'utf—8' 


# 第 二 参数 为 HTML 解析 此 ,推荐 使 用 1xml, 需 要 安装 C 语 言 库 
soup = BeautifulSoup(lres. text, 'lxml') 


由 于 最 终 目标 是 获取 新 闻 的 标题 ,作者 来源 时间 、 正 文 以 及 图 片 ,下 面 逐 项 进 
行 分 析 。 首 先 打开 一 个 新 闻 页 (新 闻 为 “人 社 部 又 有 大 动作 事 关 你 的 养老 金 ”, 地 址 为 
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“http :/ /news. sina. com,. cn/c/2018-07-24/doc-ihftenhz3571650. shtml)”, 通过 检 碍 
元 素 依 次 找到 所 需要 内 容 所 在 的 标签 。 
(1) 标题 : 


<hl class = "main 一 title"> 人 社 部 又 有 大 动作 事 关 你 的 养老 金 </hl > 
(2) 时 间 : 


< span class = "date"> 2018 年 07 月 24 日 08:24 </span> 


<p class = "show_author"> 责 任 编辑 : 吴 金 明 </p> 


(4) 来 源 ， 


<ahref="..." target =" blank” class= “Source ”data- suda ”click = "content media p” rel 
= "nofollow"> 新 浪 新 闻 综 合 </a> 


<div class = "article” i1d= "article"> 


<p> 原 标题 : 重 磅 ! 人 社 部 又 有 大 动作 ! 事 关 你 的 养老 金 !</p> 


<p>7 月 23 日 ,人 社 部 新 闻 发 言 人 卢 爱 红 在 2018 年 第 二 季度 新 闻 发 布 会 上 表示 ,中 央 调 剂 基金 
按 季 度 上 解 下 拨 , 目 前 人 社 部 正 会 同 有 关 部 门 制定 具体 实施 办 法 ,将 于 近期 出 台 实 施 ,确保 三 季度 
启动 资金 缴 拨 工 作 .</p> 


# 图 片 存在 于 正文 内 


< div class = " img wrapper">< img src = "http://n. sinaimg. cn/news/crawl/84/w550h334/ 


20180724/711j - hftenhz3563879. jpg”alt = "">< span class = "img descr"></span></div> 


# 最 后 的 p 标 签 内 是 作者 信息 
<p class = "show_author"> 责 任 编 辑 : 吴 金 明 </p> 
</div> 


CSS 选择 需 与 XPath 相 比 ,在 实现 根据 属性 、ID 选择 标签 的 功能 时 语法 更 为 简 
洁 ,例如 使 用 . class 根据 class 获取 标签 ,使 用 #id 根据 id 获取 标签 等 。 下 面 以 正文 
为 例 ,获取 所 有 正文 内 容 , 示 例如 下 : 
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# 选择 id = "article" 的 div 标签 内 的 所 有 直接 子 标签 p 
news_article = soup. select('div#article > p') 
tmp str = " 
## 最 后 一 个 p 元 京 并 非 正文 内 容 , 而 是 作者 信息 
for i in range(len(news article) — 1): 

tmp str 十 = news article[i].text + \r\n' 
new_dict['article'] = tmp_str 


2. 完整 程序 与 说 明 


由 于 同时 需要 获取 新 闻 的 配 图 且 每 个 新 闻 的 配 医 
选择 将 每 个 新 闻 以 子 文件 夹 的 形式 单独 保存 。 


Prog - 21 -~ sinaNewsSpider. py 
Hn EE 9 二 站 二 
import requests 

from bs4 import BeautifulSoup 
from datetime import datetime 
import traceback 

import os 

import re 


# 抓 取 新 闻 页 面 信息 ,返回 新 闻 dict 和 图 片 1ist 
def get news(new url]): 
# 新 闻 信 息 字 — 典 
new dict = {} 
Print(" 新 闻 地 址 : ”+ mew_url) 
try: 
res = requests. get(new_ur]l) 
res.encoding = ‘utf—8' 
soup = BeautifulSoup(res. text, 'lxml') 
# 标题 
new title = soup. select('hl.main ~ title')[0]. text. strip() 
new_ dict[ 'title'] = new title 


# 时 间 

nt = datetime. strptime( soup. select('span. date')[0]. text. strip(), '%Y 年 和 m 月 $ 
d 日 和 H: 和 GM') 

new time = datetime. strftime(nt, '$%Y¥— 先 血 一 Sd SH:%M') 

new dict['time'] = new time 


# 来 源 ,不 能 使 用 a. source, 个 别 网 页 来 源 内 容 所 在 标签 为 span 标签 
new_source = soup. select('. source')[0].text 

new_dict[ 'source'|] = new_ source 

# 作 者 


new_ author = soup. select( 'p. show author')[0]. text 
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new dict[ 'author'] = new author 

并 正文 

news_article = soup. select('div#article > p') 
tmp str = 


for i in range(len(news article) — 1): 


tmp str 十 = news article[i].text + '\r\n' 


new dict[ 'article'] = tmp str 

## 图 片 

news_pic = soup. select('div. img wrapper > img') 
news pic list = [] 


for pic in news pic: 
news_pic list.append(pic. get("src")) 

new dict[ 'picture'] = news pic list 
except Exception as e: 

print(' 抓 取出 错 ,此 条 新 闻 已 略 过 ') 

print(e) 

traceback. print exc( ) 

return None, None 
print(' 时 间 :%s 标题 :%s 作者 :Gs 来 源 :%s'% (new time, new title, new author, new 

_ source)) 

print(' 共 有 名 d 张 图 片 ' 当 len(news pic list)) 
return new dict, news_pic_ list 


井 获取 所 有 新 闻 链 接 
def get url list(new list _UTr1) : 
# 新 闻 链 接 1ist 
news url list = [|] 
# 通过 range 控制 仆 取 页 数 或 仆 完 为 止 
for i in range(l1, 20): 
url = new_ list url.format(page = i) 
tmp vr] list = get url(ur]l) 
# 合 并 URL 列表 
if len(tmp url list): 


news url] list[len(news url list):len(news url list)] = tmp url list 
else: 

brint( "====—==== 二 月 好 肥 取 完毕 二 =F 一 == 二 二 ') 

break 


return news url list 


# 获取 指定 页 的 所 有 新 闻 链 接 
def get url(new list url]l): 
url = new list url 
res = requests. get(ur]) 
res. encoding = 'utf—8' 
soup = BeautifulSoup(res. text, 'htm]. parser') 


# 获取 新 闻 和 链接 
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url list [ 
news_ url = soup. select( 'ul.1ist 009 > 1]i>a') 
for url in news url: 
url list.append(url. get( 'href')) 
print( ' 本 页 共 sd 条 新 闻 链接 :%s' % (len(url list), new list ur]l)) 


return url list 


# 保 存 新 闻 
def save new(root dir, news dict, pic list): 
# 例 建 子 文件 夹 
Lry: 
# 路 径 名 中 不 能 出 现 一 些 符号 ,需要 进行 过 滤 
title = news dictl[ 'title'] 
title = re.sub(r'[\WM/: *?"<|!: ?1; ]', ' ', title) 
file dir = root dir + os.sep + title 
is dir exist = os.path. exists(file dir) 
if not is_ dir exist: 
os. makedirs(file dir) 
# 输出 新 闻 文 本 
save text(file dir, news_dict) 
# 输出 图 片 
save pic(file dir, pic list) 
except Exception as e: 
print(' 保 存 出 错 ') 
print(e) 
traceback. print exc() 
print(" 保 存 完毕 ,新 闻 文件 路 径 : % s" % file dir) 


# 保存 文本 
def save text(file dir, news dict): 
res = 标题:' + news dict[ 'title'’] 十 “TAR + 
' 时 间 :' + news dict['time'] + '"\r\n' 十 
"作者 :' + news dict['author’] + \rn\n' 十 
' 来 源 :' + news dict['source'] + \r\n'+ 
' 新 闻 正 文 :' + news dict['article'] + "\m\n') 
# 文件 名 中 不 能 出 现 一 些 符 号 ,需要 进行 过 滤 
title = news dict[ 'title'] 
Fitle = Te eur WV ol ?I | title) 
井 输出 
file _ path = file dir + os.sep + title + '.txt' 
f = open(file path, "wb") 
f.write(res. encode("utf—- 8")) 


f. closel ) 


# 保 存 图 片 


ea 


we 
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def save pic(lfile dir, pic list): 
for i in range(len(pic list)): 
# 图 片 保 存 路 径 
pic path = file dir + os.sep + '%d.jpg'" 名 i 
ETY: 
req = requests.get(pic list[i]) 
except requests. exceptions. MissingSschema as e: 
print(' 图 片 URL 出 错 ,尝试 补 全 URL') 
print(e) 
req = Tequests. get( 'http:' + pic list[i]) 
finally: 
img = req.content 
f = open(pic path, "wb") 
f.write( img) 


# 开始 执行 
def start spider(root url, root dir): 
Url list = get url list(root url) 
print{' --- 一 链接 获取 结 东 一- 一 ") 
print( ' 即 将 抓 取 %d 条 新 闻 \r\n' % len(url_list)) 
for i in range(len{(url list)): 
print('%d: ' 名 1) 
new pic = get news(url list[i]) 
if new: 


save new(root dir, new, pic) 


if name == ' main ": 
井 人 口 ,{page} 用 于 format 格式 化 
root_url = 'http://roll].news. sina.com.cn/news/gnxw/gdxwl/index {page}. shtml， 
root dir = r'.\news' 
start spider(root url, root dir) 


运行 样 例 首先 要 设置 候 虫 入 口 地 址 和 存储 的 根 目 录 , 调 用 start_spider() 郧 数 局 
动 息 虫 。start_spider() 函 数 会 先 调用 get_url_list() 提 取 新 闻 链 接 , 然 后 逐 链接 调用 
get_news() 图 数 获 取 所 需 数 据 , 并 最 终 调 用 save_new() 保 存 结 果 。 

这 里 有 一 点 需要 进行 说 明 , 由 于 部 分 特殊 字符 (Windows 系统 下 为 /\\、:、x* 、"、 
<、>、|、?) 不 能 出 现在 路 径 名 和 文件 名 中 ,而 冒号 \ 问 号 却 是 新 闻 标 题 中 常常 出 现 的 符 
号 ,所 以 在 保存 文件 时 要 特别 的 进行 过 滤 ,处 理 过 程 参 见 save_new() 以 及 save_text() 的 
代码 。 

程序 运行 后 可 以 获得 每 条 新 闻 的 抓 取 结果 ,包括 新 闻 正 文 . 相 关 信 息 ( 作 者 .来 源 
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等 ) 以 及 新 闻 配 图 ,独立 保存 在 以 新 闻 标 题 为 名 的 子 文 件 下 ,然后 进 人 到 设置 的 存储 
根 目 录 下 查看 后 东 , 如 图 12-3 所 示 。 


名 称 . 修改 日 其 


山 滴 滴 恢 复 深 夜 出 行 第 一 夜 新 司机 被 刷 考 校 潮 叶 桔 2019/4/7 星期 日 .… 
mm 进 考 会 门票 网 售 1500 元 一 张 _ 上 海 敬 方 假 的 别 信 2019/4/7 星期 日 .. 
由 人 民 日 报 钟 轩 理 文章 帘 易 战 旧 挡 不 了 中 国 前 进步 伐 2019/4/7 星期 日 .. 


四 瑞 媒 称 中 国 游 客 事 件 或 由 中 方 故 意 导演 中 使 馆 驶 斥 2019/4/7 星期 日 .。 文人 
出 台北 捷 运 传 多 徒 持 刀 刺 人 女 于 胸口 被 划 伤 15 硅 米 2019/4/7 星期 日 文 | 
时 扬子 锯 保 护 区 遭 企 业 侵 占 当地 官员 曾 称 谁 说 不 能 2019/4/7 星期 日 .. 
由 中 国 驻 美 大 使 回击 白宫 指 奏 坦言 不 知 白 宫 谁 说 了 算 2019/4/7 星期 日 .. 
里 著名 表演 艺术 家 朱 胃 去 世 享年 88 法 2019/4/7 星期 日 .. 


图 12-3 新 闻 获 取 结 末 


子 文件 夹 下 的 新 闻 配 图 和 文本 文件 样 例如 图 12-4 所 示 。 


图 12-4 存储 的 新 闻 配 图 和 文本 文件 
保存 在 文本 文件 中 的 相关 信息 和 新 闻 正 文 如 图 12-5 所 示 。 


本 扬子 钱 保 护 区 遭 企业 侵占 当地 官员 曾 称 _ 谁 说 不 能 - 记事 本 
文件 (Pi 编 田 (E) 格式 (O) 查看 (V) 帮助 (H) 


标题 : 人 作 区 是 生 上 下 悍 襄 当地 家 员 曾 裕 : 谁 说 不 能 
时 间 2018-10-16 0 
: 束 任 ， 张 
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12.2.4 新 闻 分 析 


对 新 闻 进 行 关 键 词 分 析 , 可 以 得 到 近期 热点 话题 。 将 若干 个 新 闻 正 文 合 并 到 同 
一 个 文本 文件 下 ,执行 程序 ,可 以 生成 词 云 。 

通过 有 息 虫 抓 取 的 新 闻 数 据 量 很 大 ,人 工分 析 费 时 、 费 力 , 如 果 想 要 分 析 新 闻 的 关 
刍 词 ,可 以 通过 生成 词 云 的 方式 对 关键 词 进 行 耳 观 的 展示 。 

通过 wordcloud 这 个 词 云 生产 类 库 可 以 轻松 地 生成 词 云 , 当 然 前 提 是 要 先 对 新 
闻 进 行 分 词 。 在 设置 好 文本 和 背景 图 片 的 路 径 后 直接 进行 分 词 。 如 果 同 时 设置 停 用 
词 ,能 够 有 针对 性 地 过 小 择 不 需要 的 词汇 。 为 了 更 准确 地 分 词 , 也 可 以 沭 加 目 定 
义 词 。 

样 例 如 下 : 


Prog - 22 - keywordCloud. py 
Te 


import jieba 

import os 

import chardet 

import matplotlib. pyplot as plt 

from wordcloud import WordCloud, ImageColorGenerator 


from scipy.misc import imread 


# 设 置 新 闻 文 本 根 日 录 、 图 像 路 径 、 停 用 词 文件 .和 目 定义 词典 
newsTextdir = r'.\news' 

img path = r'.\background. jpg' 

stop word path = r'.\stopword. txt' 

my_word path = r'.\myword. txt' 


# 增加 停 用 词 库 , 返 回 停 用 词 集合 
def add stop words(list): 
stop words = set!() 
for item in list: 
stop_words.add( item. strip( )) 


return stop_words 


def getnewstext(newsdir): 
news text="" 
sd= os.walk(newsdir) 
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for d,s,fns in sd: 
for fn in fns: 
if fn[ — 3:] == 'txt'": 

file=d+os.sept+fn 

print(file) 

LTY: 
f= open(file) 
lines = f. readl ines() 

except: 
ft = open(file,"rb") 
cs = chardet. detect(ft. read( ) ) 
ft, closel() 
上 = open(file,encoding = cs[ 'encoding ' |) 
lines = f. readl] ines() 

for i in range(len(lines)): 
news text += '.'. join(lines) 


return news text 


# 读 取 文本 和 背景 图 片 ,rb 即 二 进 制 读 取 

stopword list = openl(stop word path, encoding = 'utf - 8').readlines() 
myword list = open(my word path, encoding = 'utf ~ 8').readlines() 
bg_img = imread( img_ path) 

news_ text = getnewstext (newsTextdir) 


# 设置 停 用 记 
stop words = add stop words(stopword list) 
print(' 停 用 词 共 :',， stop words._len ()) 


# 加 载 日 定义 词 库 
jieba. load userdict(my word path) 


# 切 分 文本 
seg_list = jieba.cut(news text) 


seg_ space = "''.join(seg list) 


# 生成 词 云 , font_path 需 指 癌 中 文学 体 以 避免 中 文 变 成 方 框 , 寿 出 现 非 方 框 的 乱码 , 则 为 txt 读 
取 时 的 编码 选择 错误 

we = WordCloud(font path= 'C:\Windows\Fonts\simfang.ttf', max words = 40, random state = 
42, background color = 'white', stopwords = stop_ words, mask = bg img, max font size = 100, 
scale = 5, collocations = False). generatel( seg space) 

plt. imshow(wc) 

# image color = ImageColorGenerator(bg img) 

# plt. imshow(wc. recolor(color func = image color)) 

plt. axis("off") 

plt. show( ) 


wc. to file('.\wordcloud res. jpg') 


oii 


Python 压 虫 大 数据 采集 与 挖掘 - 微 课 视频 版 


程序 运行 后 可 以 获得 新 闻 中 关键 词 的 词 云图 ,如 图 12-6 所 示 。 可 见 该 时 间 段 内 
的 主要 天 键 词 基 本 上 部 能 正确 反映 出 来 。 


图 12-6 新闻 中 关键 词 的 词 云图 展示 


2. 主题 建 模 


在 第 11 章 的 主题 模型 部 分 介绍 了 LDA 主题 模型 的 原理 和 相关 开源 系统 的 使 用 
方法 ,这 里 对 采集 到 的 新 闻 文 本 进行 主题 建 模 ,并 输出 主题 信息 。 

采集 新 闻 信息 ,将 新 闻 信息 存储 到 硬盘 中 ,例如 “e;\news” 中 。 每 个 新 闻 报道 建 
立 了 一 个 子 目 录 ,每 个 子 目录 下 包含 一 个 文本 文件 和 若干 个 图 片 ,分 别 是 新 闻 的 内 容 
和 新 闻 中 的 图 片 。 在 主题 建 模 时 只 使 用 文本 文件 中 的 内 容 。 

主题 建 模 的 过 程 包括 文本 分 词 、 模 型 训练 .主题 输出 3 个 主要 过 程 , 然 后 即 可 使 
用 词 云图 之 类 的 工具 来 进行 主题 可 视 化 ,从 而 提供 了 另 一 个 角度 来 阅读 新 闻 。 


Prog - 23 -~ LDAnewsTopic.py 

#—* 一 coding: utf —8 一 # 一 

import jieba 

import os 

import chardet 

from gensim. corpora. dictionary import Dictionary 
from gensim. models. ldamodel import LdaModel 

from wordcloud import WordCloud 

import matplotlib. pyplot as plt 


num topics=5 # 设 定 主 题 个 数 
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newsTextdir = r'.\news' 


def getnewstext (newsdir): 
docs= [|] 
news text="" 
sd = os.walk(newsdir) 
for ds,fns in sd: 
for fn in fns: 
if fn[ 一 3:]== 'txt": 
file=d+os.sept+fn 
print(file) 
LTY : 
f = open(file) 
lines = f. readlines() 
except: 
ft = open(file, "rb") 
cs = chardet. detect(ft. read!( )) 
ft, closel() 
f = open(file,encoding = cs['encoding'] ) 
lines = f. readl ines() 
docs. append( \n'. join( lines)) 
return docs 


alllines = getnewstext (newsTextdir ) 


# 对 文档 集 进行 词汇 切 分 、 停 用 词 过 滤 
stoplist = open( 'stopword. txt', 'r',encoding = "utf ~- 8"). readlines( ) 
stoplist = set(w. strip() for win stoplist) 


segtexts= [| 
for line in alllines: 
doc = |[ | 
for w in list(jieba.cut(line,cut all = True) ) : 
if len(w)> 1 and w not in stoplist: 
doc. append(w) 
segtexts. append( doc) 


dictionary = Dictionary( segtexts) 

dictionary. filter extremes(2,1.0,keep n= 1000) # 词典 过 滤 , 保 留 1000 个 

corpus = [dictionary. doc2bow(text) for text in segtexts | 

lda = LdaModel (corpus, id2word = dictionary, num topics = num topics) 井 指定 id2word, 可 
以 直接 显示 词汇 而 非 其 ID 

topics = 1da. print _ topics (num topics = num topics, num words = 10) # list (toplic id, 
[ (word, value), 1 |]) 

print(topics) 

# 可 视 化 

font = r'C:\Windows\Fonts\simfang. ttf' 

WC = WordCloud(collocations = False, font path = font, width = 2800, height = 2800, max words = 20, 
margin = 2) 
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for topicid in range(0,num topics): 
tlist = lda. get topic terms(topicid, topn=1000) “ 井 定 义 词 云图 中 的 词汇 数 
井 Print(t1List) 
wdict= {}  #[' 词 a':100 ' 词 b':90，' 词 c":80] 
for wv in tlist: 
wdict[ dictionary[wv[0]]]= wv[1] 
print (wdict) 
wordcloud = wc. generate from frequencies(wdict) 
wordcloud. to file('topic '+ str(topicid) + '.png') 井 保 存 图 片 


图 12-7 是 程序 运行 后 输出 的 第 一 个 主题 对 应 的 话题 词 云图 。 


图 12-7 ”一 个 主题 词 云图 样 例 


12.3 把 虫 用 于 Web 网 站 SQL 注入 检测 


12.3.1 日 标 任 务 视频 讲解 

在 互联 网 上 许多 Web 网 站 都 是 基于 Web 和 数据 库 的 架构 ,一 些 重 要 信息 存储 
在 数据 库 系 统 中 。 由 于 Web 设计 等 多 方面 的 原因 ,一 些 攻击 者 可 以 利用 Web 的 漏 
洞 进入 系统 ,为 此 需要 设计 一 种 爬虫 ,能 够 目 动 检 测 Web 站 点 中 的 页 面 ,判断 页 面 中 
的 数据 库 查询 访问 是 否 存在 注入 漏洞 的 可 能 。 

为 了 便于 怜 虫 检测 和 测试 ,这 里 构建 了 一 个 简单 的 Web 站 点 。 该 站 点 基于 
Tomcat, 并 提供 用 户 登 录 界 面 ,如 图 12-8 所 示 。 

后 台数 据 库 使 用 SQL Server 2008, 其 中 有 一 个 名 为 pysqlinject 的 数据 库 ,在 数据 库 
中 有 一 张 表 userinfo, 存 储 了 Web 用 户 信 息 。userinfo 的 字段 和 类 型 是 namel varchar 
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1: © 127.0.0.1:8080/pysqlinject/login.jsp 
欢迎 登录 
用 户 名 : 
室 但 : | 
| 提交 | 重 轩 | 
图 12-8 登录 的 Web 盘面 


(20) ,id varchar (20)、passwd varchar(20)。 在 该 表 中 有 两 条 记录 ,分 别 是 (xy， 
123456，123456) 和 (zz，001,001) 。 

当 在 登录 页 面 的 用 户 名 和 密码 框 内 分 别 输入 xy、1' or '1 ='1 时 会 显示 登录 成 
功 , 同 时 检索 数据 库 中 正确 的 用 户口 令 并 显示 出 来 ,如 图 12-9 所 示 。 但 是 数据 库 表 
中 并 没有 这 样 的 记录 ,因此 这 属于 SQL 注入 攻击 。 


和 一 避 © 127.0.0.1:8080/pysqlinject/handlelogin.jsp 


用 户 名 :xy 密码 123456 


登录 成 功 


图 12-9 SQL 注入 
为 此 需要 设计 一 个 爬虫 程序 对 页 面 中 的 输入 框 目 动 填 充 内 容 , 并 根据 返回 的 页 
面 结 果 来 判断 页 面 是 否 存 在 SQL 注入 的 可 能 。 
12.3.2 总 体 思 路 


在 候 虫 设计 思路 上 主要 分 成 3 个 环节 ,分 别 是 注入 模式 的 设置 . 聆 虫 请 求 以 及 响 
应 结果 分 析 , 疏 虫 结构 如 图 12-10 所 示 。 其 中 , 疏 虫 在 向 Web 服务 器 发 起 请 求 时 自动 
填充 Web 页 面 中 的 输入 框 。 


设置 常见 的 注 目 动 填充 Web 回 Web 服 务 大 
人 模式 页 面 的 输入 框 提交 请 求 


分 析 服 务 器 的 
四 应 页 面 


图 12-10 检测 SQL 注 人 的 爬虫 结构 
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在 登录 时 判断 所 输入 的 用 户 信 息 是 否 在 表 中 ,为 此 在 Web 页 面 中 动态 执行 数据 
库 查 询 ,根据 是 否 返 回 记 录 来 判断 是 否 允 许 登 录 。 为 了 能 够 实现 注入 ,一 种 SQL 可 
以 是 如 下 形式 。 其 中 ,黑色 字体 部 分 输入 在 登录 页 面 的 用 户 名 和 密码 框 内 。 如 果 分 
别 输入 22 和 12'or 1 一 '1, 即 SQL 语句 变 成 了 如 下 语句 ,这 样 显然 会 返回 数据 记录 ， 
尽管 口令 不 对 ,但 也 能 进入 系统 。 


select * from userinfo where namel = 'zz' and passwd = '12'or '1'= "1' 


因此 在 一 个 文本 文件 中 定义 了 若干 模式 ,如 
图 12-11 所 示 。 每 一 行 是 一 个 注入 模式 ,> 之 前 表 
示 用 户 名 ,后 面 表示 密码 框 的 内 容 。 Be 

候 虫 运行 时 ,自动 读 取 该 文件 的 所 有 模式 ,对 
每 个 模式 提取 出 用 户 名 和 密码 ,针对 具体 页 面 构 
造 URL 请 求 , 由 页 面 执行 数据 库 查 询 。 如 果 Web 服务 器 的 响应 页 面 中 包含 “登录 成 
功 ”, 则 说 明 带 有 注入 模式 的 语句 能 够 被 执行 ,因此 页 面 存在 注入 的 可 能 。 

这 里 在 设计 上 要 考虑 到 检测 效率 的 问题 , 当 SQL 注入 模式 比较 多 时 ,如 果 对 每 
个 模式 都 独立 构造 请 求 , 那 么 在 Web 服务 器 端 每 次 都 要 相应 地 连接 数据 库 再 查询 。 
连接 数据 库 是 一 个 花费 时 间 的 操作 ,为 了 避免 这 种 情况 发 生 , 可 以 让 每 个 注入 模式 的 
请 求 共 享 数据 库 连接 状态 ,因此 在 爬虫 请 求 时 使 用 Session 功能 ,具体 见 下 面 的 程序 
设计 部 分 。 


UL>123 ” or 


图 12-11 若干 个 SQL 注 人 模式 


12.3.3 Python 程序 设计 


Prog -~ 24 - check. py 

import requests 

import time 

# 罗列 可 能 被 注入 的 页 面 , 即 需 要 检测 的 Web 页 面 

def Url Set(): 
url set = ["http://localhost:8080/pysqlinject/handlelogin. jsp"] 
url set.append("http://localhost:8080/pysqlinject/securitylogin. jsp") 
return url set 


# 对 每 个 页 面 进行 注入 模 式 的 检测 
def Check(mode, url] set, header): 
res = [| 


ssion = requests. session() 
for link in url set: 
for i in mode: 
# 使 用 post 方法 提交 注入 模式 中 设 定 的 用 户 名 和 密码 
data = {"username":i[0], "password":1[1]} 
r = ssion.post(link , headers = header, data = data) 
print (data) 
if "登录 成 功 " in rr. text: 
print(link + ">>>" + "存在 SoL 漏洞 !") 

elif “Exception ”in 工 .七 ext: 


print(r. text) 
print(link + ">>>”+ "SOL 语句 语法 错误 !") 
else: 


print(1link 十 ">>>” 十 "无 问题 .") 


return 


# 读 模式 文件 
def GetMode(file): 

res = [| 

f = open(file) 

for 1 nm 

i = i.strip('\n') 

4 Spl Tel 
res. append( i) 


1 
return res 


# 主 程序 
if name == " main ": 
header = {"User — AMgent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537. 
36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"} 
mode = GetMode( “1.txt") 
url set = Url Set() 


start = time.clock() 
Check(mode, url set, header) 

elapsed = (time.clock() - start) 

print(" 检 测 消耗 的 时 间 是 : %f 秒 " % (elapsed)) 


图 12-12 是 程序 运行 结果 ,在 handlelogin. jsp 页 面 中 使 用 前 两 个 注入 模式 都 发 
现 了 注入 点 ,而 对 于 securitylogin 页 面 没 有 发 现 注 和 人 点 。 

作为 疏 虫 效率 的 对 比 ,编写 另 一 个 Check( 如 下 ) ,不 采用 Session, 即 将 该 程序 中 
的 check 函数 蔡 换 为 该 函数 。 对 于 每 个 注 和 人 模式 都 独立 检测 ,当然 这 里 使 用 post( ) 
函数 ,因为 需要 向 服务 器 提交 参数 。 从 图 12-13 所 示 的 运行 结果 可 以 看 出 ,不 使 用 
Session ,检测 消耗 的 时 间 超 过 了 6 秒 , 远 远大 于 使 用 Session 时 的 1. 22 秒 。 
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{ username : ul ’ 
http: //localhost: 8080/pysqlinject/handlelogin. jsp>>> 人 存在 SQL 漏 铜 ! 


1 username : U2 
http: //localhost: 8080/pysqlinject/handlelogin. jsp>》》》 存 在 SQL 泌 凋 ! 
{ username : U3 


‘password : 123 or 1= 1 | 


“123 or 1= 1 | 


password : 


‘password : 123 or 1=] | 


http: //localhost.: 8080/pysqlinject/handlelogin. jsp>>> 无 问题 . 
1】 


{ username : “ul, 


“password : “123 or "1= 


http: // localhost.: 8080/pysqlinject/securitylogin. jsp>>> 无 问题 . 
"1”"} 


{ username : 1U2 ， 


“password : “123 or 1= 


http://localhost: 8080/pysqlinject/securitylogin jsp>>> 无 问题 


本 本 
{ username : 103 ， 


“123 or 1=1 } 


3 
password : 


http://localhost:8080/pysqlinject/securitylogin. jsp>>> 无 问题 . 
检测 消耗 的 时 间 是 :1. 224255 秒 


图 12-12 注入 检测 结果 
{ username : ul , ‘password : “123 or 1=1’} 
http: //localhost.: 8080/pysqlinject/handlelogin. jsp>>> 和 存在 SQL 湄 洞 ! 
{ username : U2 , password :123 or 1=1 
http: //localhost: 8080/pysqlinject/handlelogin. jsp>>> 存 在 SQL 漏洞 ! 
{ username : U3 ， password : 123 or 1=1 | 


http: //localhost: 8080/pysqlinject/handlelogin. jsp>>> 无 问题 . 


{ username : "ul ， 


“password : “123 or "1= 1 


http: //localhost.: 8080/pysqlinject/securitylogin. jsp>>> 无 问题 . 


{ username :  U2 ， 


Dassword : “123 or 1= 1 ”| 


http://localhost: 8080/pysqlin ject/securitylogin jsp>>> 无 问题 


晶 本 组 配 
{ username : 13 ， 


123 or 1=1 } 


时 EE 站 
password : 


http://localhost:8080/pysqlinject/securitylogin. jsp>>> 无 问题 . 
检测 消耗 的 时 间 是 :6. 478976 秘 


图 12-13 不 使 用 Session 的 检测 输出 


def Check (mode, url set, header ): 


下 起 号 ”一 


for link in url set: 


for 1 in mode: 


return 


data = {"username":i[0], password :i[1]} 
r = requests.post(link , headers = header, data = data) 
print(data) 


if "登录 成 功 " in r. text: 

print(link + ">>>"”+ "存在 SQL 漏洞 !") 
elif "Exception” in r. text: 

print(r. text) 

print(link + ">>>”+ "SQL 语句 语法 错误 !") 
else: 

print (link + ">>>”+ "无 问题 .") 
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思考 题 


综合 使 用 本 书 介绍 的 方法 设计 Python 程序 采集 自己 所 在 学 校 的 新 闻 信息 ,实现 
以 下 功能 ， 

(1) 提取 每 个 新 闻 的 标题 和 正文 ， 

(2) 实现 增 量 式 抓 取 , 即 每 个 疏 虫 程序 运行 时 只 抓 取 新 的 新 闻 ， 

(3) 对 新 闻 文本 进行 词汇 切 分 ,将 学 校 院 系 的 主要 人 物 设 定 到 自 定义 词典 中 ， 

(4) 分 析 每 个 院 系 中 主要 人 物 的 活动 情况 。 

(5) 选择 合适 的 可 视 化 技术 来 展示 分 析 结果 。 


只 和 A 录 
SSO。 


代码 与 效 据 


书 中 相关 代码 和 数据 的 下 载 地 址 为 "https:/ygithub. com/jpzeng/ CrawlerAPPL”, 其 


中 文件 的 说 明 如 下 : 
Prog-l-error-handle. py 
Prog-2-hyper-link-extraction. py 
Prog-3-robotparser-demo. py 
Prog-4-cookie-demo. py 
Prog-5-HTMLParser-test. py 

Prog-6-lxml-test. py 

Prog-7-html5lib-test. py 

Prog-8-bs-sinanews. py 

Prog-9-pyquery-sinanews. py 

Prog-10-topic-pages. py 

Prog-11-book-info. py 

Prog-12-welboUserInfo. py 

Prog-13-weiboMsglnfo. py 


Prog-14-doc-vectors. py 


微 博 用 户 信息 
微 博 博 文 信息 
文档 回 量 空 


怜 虫 的 错误 处 理 方法 

超 链 接 提取 方法 

Robots 协议 文件 解析 

在 怜 虫 中 使 用 Cookie 

使 用 HTMLParser 进行 页 面 解析 
使 用 lxml 进行 页 面 解析 

使 用 html5lib 进行 页 面 解析 

使 用 BeautifulSoup 进行 新 闻 页 面 解 析 
使 用 PyQuery 进行 新 闻 页 面 解 析 
主题 爬虫 

图 书 Deep Web 疏 虫 

采集 

采集 

间 模 型 的 构建 


Prog-15-train-classifier. py 
Prog-16-classify. py 
Prog-17-LDA-sklearn. py 


Prog-18-LDA-gensim. py 


Prog-19-matplotlib-examples. py 


Prog-20-wordcloud-example. py 


Prog-21-sina NewsSpider. py 
Prog-22-keywordCloud. py 
Prog-23-LDAnewsTopic. py 
Prog-24-ckeck. py 

2019. png 

bd-html 

press, txt 

stopword. txt 

t. html 

userdict. txt 

wordcloud. png 
crawler-strategy 

classify 

app-1 

LDA 


sqlinject 


训练 分 类 三 

使 用 SVM 进行 分 类 测试 

LDA 模型 的 Python 实现 (基于 scikit-learn) 
LDA 模型 的 Python 实现 (基于 gensim) 


matplotlib 的 使 用 
wordcloud 的 使 用 

新 闻 内 容 采 集 与 提取 
关键 词 分 析 

Web 网 站 SQL 注入 检测 
样 例 图 三 

抓 取 结果 

Deep Web 爬虫 使 用 的 文件 
俘 用 词 文件 

抓 取 结果 


词汇 切 分 中 使 用 的 用 户 目 定义 词典 

词 云 图 输出 样 例 

子 目 录 ,4.4.2 的 完整 程序 

子 目 录 ,11.3 的 例子 ,包含 训练 数据 .测试 数据 
子 目 录 ,12. 2 的 样 例 

子 目 录 ,11.4 的 例子 ,包含 训练 语 料 

子 目 录 ,12. 3 的 例子 ,包含 模式 列表 文件 及 
Web 网 站 相关 文件 


附录 人 代码 与 数据 
AD 


相关 包 索 引 


书 中 使 用 到 的 相关 Python 开源 包 及 相关 章节 索引 如 表 B-1 所 示 。 


名 


BeautifulSoup 
chardet 


dnspython 


gensim. corpora 


gensim. models. ldamodel 


html. parser 
htmjl5lib 
jieba 

]son 

|xml 
matplotlib 
PyQuery 

re 

requests 
response 
RobotFileParser 


selenium 


书 中 使 用 到 的 相关 Python 开源 包 及 相关 章节 索引 


Web 信息 抽取 6. 3.4.7.5.8.4、12.2.3 
字符 集 检 测 225423.1224 
域名 转换 4.2.2 


1 
12. 2.4 


词汇 切 分 、 词 性 识别 等 。 | 7.5.11.1.4.11.2.3、12.2.4 
画图 | 11.5.2.12.2.4 
LP to] hy 


语 料 处 理 .字典 构建 等 


了 ,9 
3 4 3 27. 2 


2.3、 .0 3.4、12.2.2、12.3.3 


9. 
6 


Robots 文件 分 析 


模拟 浏览 器 


6. 

和 

4. 
4.2.3.7.5.8.4.12.2.2.12.3.3 

4. 

5. 
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sklearn. svm SVM 分 类 器 11. 3. 3 
sklearn. decomposition. z 
| LDA 模型 11. 4.4 
LatentDirichlet Allocation 
sklearn. feature_extraction. text. z 
| ， TF-IDF 的 计算 11. 2.3,1]1. 3. 3 
Tfid{Vectorizer 


sklearn. metrics. classification report 分 类 结果 的 性 能 报告 11. 3. 3 
sklearn. metrics. confusion matrix 分 类 结果 的 混淆 矩阵 11. 3. 3 


urllib URL 编码 8.4.9.3.3.9.3.4 


wordcloud 词 云图 11.5.2、12.2.14 


一 训 


翁 虫 框架 


1. Scrapy 


Scrapy 是 一 种 容易 使 用 的 Web 息 忠 框架 ,可 以 用 于 抓 取 网 站 并 从 其 页 面 中 提取 
结构 化 数据 。 此 外 , 它 还 可 用 于 自动 化 测试 等 其 他 各 种 场合 。 

其 目前 最 新 的 版 本 是 1.6 ,支持 Python 2.7、Python 3. 4 一 Pvthon 3. 7。 

框架 软件 的 下 载 地 址 为 “https:/ /scrapy. org/”, 相 关 文 档 可 以 在 “https://scrapy. 
org/ doc/ ”查阅 。 

Scrapy 主要 的 功能 如 下 。 

(1) 多 线程 : 文 持 多 线程 ,默认 时 开局 。 

(2) DNS: 文 持 DNS 内 存 缓 存 , 文 持 异 步 DNS 解析 。 

(3) 支持 的 Web 信息 抽取 技术 包括 XPath .类 CSS 选择 器 和 正则 表达 式 。 

(4) 文 持 根据 网 站 Robots 协议 过 滤 被 禁止 访问 的 request, 需 保证 指定 robots. 
txt 格式 正确 且 Scrapy 的 settings 文件 内 ROBOTSTXT OBEY = True。 

(5) 文 持 目 动 管理 Cookie, 包 括 在 发 送 请 求 request 包 时 目 动 携 市 Cookie, 目 动 
获取 响应 信息 response 包 中 的 Cookie 并 合并 到 已 有 Cookies 中 。 

(6) 支持 为 单个 候 虫 维持 多 个 Session, 参 见 CookiesMiddleware 类 的 文档 说 明 
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(网 址 为 “https://docs. scrapy. org/en/latest/topics/downloader-middleware. html +# 
cookies-mw ) 。 

(7) 对 URL 管理 的 支持 : 支持 自动 URL 去 重 , 需 要 保证 scrapy. http. Request 
类 的 参数 dont_filter 王 False; 文 持 目 动 重 试 失 败 任务 ,可 在 RetryMiddleware 中 间 件 
中 针对 不 同 状态 码 设置 重 试 情况 。 

(8) 在 图 片 抓 取 方面 提供 了 ImagePipeline 类 ,支持 有 目 动 下 载 仆 取 页 面 里 的 所 有 
图 片 ,提供 了 避免 重复 抓 取 .格式 转换 .图 片 压缩 等 额 外 功能 。 更 多 功能 可 以 查阅 在 
线 文档 ,网 址 为 “https://docs. scrapy. org/en/latest/topics/media-pipeline. html +# 
topics-media-pipeline”。 

(9) 运行 自 定 义 抓 取 范 围 , 支 持 根据 SiteMap 和 XMLVCSV feeds 定义 信息 采集 
页 面 ,也 支持 配置 深度 优先 或 广度 优先 的 抓 取 师 略 , 同 时 支持 设置 候 取 深度 限制 。 

(10) 对 抓 取 内 容 的 定义 及 定义 的 方式 : Scrapy 使 用 Selectors 从 HTML 中 抽取 
指定 的 信息 ,但 不 具备 本 书 主 题 疏 虫 对 主题 的 定义 和 相似 度 评 估 功 能 。 

(11) 对 分 布 式 架构 的 支持 : Scrapy 本 号 不 文 持 分 布 式 架构 ,但 是 可 以 通过 组 合 
使 用 scrapy-redis 等 第 三 方 库 来 实现 基于 Scrapy 的 分 布 式 息 虫 架 构 。 


2, Grab 


Grab 是 一 个 Python 网 页 抓 取 框架 ,主要 包含 两 部 分 API, 即 负责 生成 request 
和 解析 response, 这 部 分 是 对 pycurl 和 lxml 的 封装 ,同时 提供 有 负责 构建 异步 爬虫 
的 Grab: :Spider API。 

其 目前 最 新 的 版 本 是 0. 6. 41, 支 持 Python 2.7、Python 3. 4。Grab 的 下 载 地 址 
是 “https://github. com/lorien/grab”, 相关 文档 可 以 在 “https://grablib. org/en/ 
latest/” 查阅 。 

Grab 主要 的 功能 如 下 。 

(1) 文 持 多 线程 处 理 。 

(2) 支持 异步 DNS 解析 ,但 需要 重新 build curl, 若 要 启用 该 功能 ,请 参照 官方 文档 
相关 部 分 (https://grablab. org/ docs/ grab/ pycurl. html # asynchronous-dns-resolving ) 进 
行 操作 。 

(3) 支持 的 Web 信息 抽取 技术 包括 XPath 和 正则 表达 式 。 

(4) 文 持 目 动 管理 Cookie 和 Session, 文 持 手 动 设 置 指定 请 求 request 包 中 的 
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Cookie 属性 ,支持 根据 指定 文件 为 每 个 request 自动 设置 Cookie, 也 支持 将 响应 包 
response 中 的 Cookie 上 自动 保存 到 指定 文件 。 

(5) 在 URL 管理 方面 支持 自动 重 试 出 错 的 URL ,支持 消息 队列 缓存 ,默认 采用 
Python 优先 队列 ,可 选 MongoDB 和 Redis。 支 持 页 面 缓 存 , 可 用 数据 库 MongoDB、 
MySQL、PostgreSQL 等 进行 页 面 缓存 。 

(6) 在 抓 取 内 容 的 定义 及 定义 的 方式 方面 ,该 框架 为 不 同类 型 的 页 面 定 义 不 同 
的 Handler, 每 个 Handler 接收 Task 后 将 发 起 新 的 request。 通 过 使 用 一 个 异步 的 
Web Sockets 池 ,框架 得 以 同时 处 理 这 些 request。 

相 比 于 Scrapy,Grab 不 具备 对 Robots 协议 的 处 理 , 不 支持 分 布 式 架构 ,也 没有 
专门 用 于 抓 取 图 片 的 API, 没 有 专门 用 于 限制 抓 取 范 围 的 API。 


3. PySpider 


PySpider 是 一 个 支持 分 布 式 架构 的 拒 虫 框架 ,相对 于 Scrapy,PySpider 提供 了 更 
友好 的 Web U1, 便于 调试 和 可 视 化 。PySpider 的 架构 主要 分 为 Scheduler (调度 般 )、 
Fetcher( 抓 取 器 ) .Processer (处 理 器 )3 个 部 分 。 

其 目前 最 新 的 版 本 是 0. 3. 10 ,支持 Python 2. 6 一 Python 2.7、Python 3. 4( 除 Python 
3.4.1 外 ) 一 Python 3.6 等 版 本 ,下 载 地 址 是 “https://github. com/binux/pyspider”， 
相关 开发 文档 可 以 在 “http://docs. pyspider. org/en/latest/ ”查阅 。 

PySpider 主要 的 功能 如 下 ， 

(1) 文 持 多 线程 ,默认 时 开启 。 

(2) 无 DNS 内 存 缓存 ,也 没有 异步 DNS 解析 。 

(3) 支持 的 Web 信息 抽取 技术 包括 XPath、CSS 等 ,同时 具有 内 置 的 PyQuery、 
正则 表达 式 等 抽取 方法 。 

(4) 对 Robots 协议 处 理 的 文 持 方 面 ,PySpider 本 号 没 有 提供 相关 API 来 处 理 
Robots ,但 PySpider 里 负责 所 有 异步 调度 的 Tornado 开源 框架 可 以 设置 robots. txt。 

(5) 支持 手动 为 request 配置 Cookie, 但 不 支持 自动 管理 Cookie。 

(6) 不 支持 Session 的 自动 管理 ,需要 手动 替换 过 期 Cookie。 

(7) 在 URL 管理 方面 文 持 设置 任务 优先 级 , 文 持 多 种 规则 的 URL 抓 取 任务 的 
重 试 调度 , 文 持 根据 任务 有 效 时 间 、 页 面 是 否 更 新 等 规则 目 动 去 重 , 文 持 周 期 性 抓 取 
任务 。 
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(8) 可 以 通过 age 参数 来 定义 抓 取 泡 围 , 在 小 于 age 值 的 时 间 范 围 内 会 忽略 那些 
置 经 执行 过 的 request。 

(9) 使 用 内 置 的 PyQuery 通过 定位 标签 从 HTML 中 提取 内 容 ,对 JavaScript 网 
页 的 支持 很 好 ,在 大 量 应 用 Ajax 的 网 站 上 抓 取 效 果 不 错 。 

(10) 支持 分 布 式 架构 ,其 中 Scheduler 组 件 因为 负责 整体 的 调度 控制 需要 部 署 
在 Master 上 ,Slave 则 运行 本 机 上 的 Fetcher 和 Processor 实例 ,使 用 消息 队列 连接 各 
个 组 件 ,支持 的 消息 队列 包括 Rabbit+MQ、Beanstalk、Redis、Kombu。 
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